# Projeto Covid - Situação Brasil
## Por: Michel Souza Santana
> Data: 20/01/2023

### Objetivos
* Requisitar de um site on-line via url dados sobre a covid19
* Armazenar os dados capturados em uma tabela
* Organizar e limpar os dados

> O propósito final desse projeto é fazer uma comparação entre casos confirmados e mortes registradas para avaliar a letalidade desta doênça.

OBS: A parte de análise desse projeto segue no arquivo anexo 'PS2-covid_analise_dados.ipynb'

> Importação das bibliotecas a serem utilizadas no projeto

In [2]:
import pandas as pd
import numpy as np
from urllib.request import urlopen
from bs4 import BeautifulSoup

> Importando dados via URL do site https://news.google.com/covid19/map?hl=pt-BR&mid=%2Fm%2F015fr&gl=BR&ceid=BR%3Apt-419 (Escolhido aleatoriamente)

* Após importação dos dados, estarei fazendo uso do BeaultifulSoup para enchugar estes por meio de seleção via 'tag'

In [3]:
html = urlopen('https://news.google.com/covid19/map?hl=pt-BR&mid=%2Fm%2F015fr&gl=BR&ceid=BR%3Apt-419')
bs = BeautifulSoup(html.read(), 'html.parser')
dados = bs.findAll('tr', {'class': 'sgXwHf wdLSAe YvL7re'})
dados[:2]

[<tr class="sgXwHf wdLSAe YvL7re" data-id="/m/01hd58" jsaction="click:KoQL8" jslog="110764; track:click"><th class="l3HOY" role="rowheader" scope="row"><div class="TWa0lb"><div class="ggJ3df" jsaction="JIbuQc:ROTNpb" jslog="113725; track:click"><button aria-label="Liberada" class="VfPpkd-Bz112c-LgbsSe yHy1rc eT1oJ mN1ivc Vs1w5b" data-disable-idom="true" data-n-mid="/m/01hd58" jsaction="click:cOuCgd; mousedown:UX7yZ; mouseup:lbsD7e; mouseenter:tfO1Yc; mouseleave:JywGue; touchstart:p6p2H; touchmove:FwuNnf; touchend:yfqBxc; touchcancel:JMtRjd; focus:AHmuwe; blur:O22p3e; contextmenu:mg9Pef;mlnRJb:fLiPzd;" jscontroller="soHxf"><div class="VfPpkd-Bz112c-Jh9lGc" jsname="s3Eaab"></div><div class="VfPpkd-Bz112c-J1Ukfc-LhBDec"></div><span aria-hidden="true" class="VfPpkd-kBDsod gsIK3e"><svg class="Xa3RBb NMm5M" focusable="false" height="16" viewbox="0 0 24 24" width="16"><path d="M0 0h24v24H0z" fill="none" stroke="#000" stroke-opacity=".008" stroke-width="0"></path><path d="M17 4v7l2 3v2h-6v5l-1

> Nesse passo estarei separando os dados e criando a tabela (DataFrame)

In [4]:
new_data = []
for d in dados:
    data = []
    td = []
    data.append(d.find('div', {'class': 'pcAJd'}).get_text())
    td = d.findAll('td', {'class': 'l3HOY'})
    data.append(td[0].get_text())
    data.append(td[1].get_text())
    data.append(td[3].get_text())
    data.append(td[4].get_text())
    new_data.append(data)
new_data[:5]

[['São Paulo', '6.389.460', '12.450', '145.099', '178.178'],
 ['Minas Gerais', '4.122.029', '2.666', '197.518', '64.799'],
 ['Rio Grande do Sul', '2.940.791', '4.019', '260.558', '41.716'],
 ['Paraná', '2.903.031', '2.090', '261.966', '45.919'],
 ['Rio de Janeiro', '2.719.059', '359', '165.180', '76.636']]

> Criando o Data Frame

In [5]:
df = pd.DataFrame(new_data, columns=['local', 'total_casos', 'novos_por_dia', 'a_cada_milhao', 'total_mortes' ])
df

Unnamed: 0,local,total_casos,novos_por_dia,a_cada_milhao,total_mortes
0,São Paulo,6.389.460,12.45,145.099,178.178
1,Minas Gerais,4.122.029,2.666,197.518,64.799
2,Rio Grande do Sul,2.940.791,4.019,260.558,41.716
3,Paraná,2.903.031,2.09,261.966,45.919
4,Rio de Janeiro,2.719.059,359.0,165.180,76.636
5,Santa Catarina,1.971.482,1.726,275.163,22.615
6,Goiás,1.862.817,3.89,285.567,27.885
7,Bahia,1.783.192,1.24,117.881,31.349
8,Ceará,1.446.481,586.0,163.577,28.091
9,Espírito Santo,1.317.879,550.0,339.218,15.001


> Percebe-se que na coluna 'a_cada_milhao' existem dados escritos e não numéricos. Tratando e substituindo por '0'

In [6]:
df['a_cada_milhao'] = df['a_cada_milhao'].str.replace('Não há dados', '0')
df

Unnamed: 0,local,total_casos,novos_por_dia,a_cada_milhao,total_mortes
0,São Paulo,6.389.460,12.45,145.099,178.178
1,Minas Gerais,4.122.029,2.666,197.518,64.799
2,Rio Grande do Sul,2.940.791,4.019,260.558,41.716
3,Paraná,2.903.031,2.09,261.966,45.919
4,Rio de Janeiro,2.719.059,359.0,165.18,76.636
5,Santa Catarina,1.971.482,1.726,275.163,22.615
6,Goiás,1.862.817,3.89,285.567,27.885
7,Bahia,1.783.192,1.24,117.881,31.349
8,Ceará,1.446.481,586.0,163.577,28.091
9,Espírito Santo,1.317.879,550.0,339.218,15.001


Na coluna novos por dia não há informações relevantes, estarei eliminando esta coluna

In [7]:
df = df.drop(columns=['novos_por_dia'])
df

Unnamed: 0,local,total_casos,a_cada_milhao,total_mortes
0,São Paulo,6.389.460,145.099,178.178
1,Minas Gerais,4.122.029,197.518,64.799
2,Rio Grande do Sul,2.940.791,260.558,41.716
3,Paraná,2.903.031,261.966,45.919
4,Rio de Janeiro,2.719.059,165.18,76.636
5,Santa Catarina,1.971.482,275.163,22.615
6,Goiás,1.862.817,285.567,27.885
7,Bahia,1.783.192,117.881,31.349
8,Ceará,1.446.481,163.577,28.091
9,Espírito Santo,1.317.879,339.218,15.001


In [8]:
df.dtypes

local            object
total_casos      object
a_cada_milhao    object
total_mortes     object
dtype: object

> Presiso converter os dados numéricos para int64 e para não haver erros se faz necessário eliminar os caracteres '.'

In [9]:
df['total_casos'] = df['total_casos'].str.replace('.', '')
df['a_cada_milhao'] = df['a_cada_milhao'].str.replace('.', '')
df['total_mortes'] = df['total_mortes'].str.replace('.', '')

  df['total_casos'] = df['total_casos'].str.replace('.', '')
  df['a_cada_milhao'] = df['a_cada_milhao'].str.replace('.', '')
  df['total_mortes'] = df['total_mortes'].str.replace('.', '')


> Caracteres '.' eliminados

In [10]:
df

Unnamed: 0,local,total_casos,a_cada_milhao,total_mortes
0,São Paulo,6389460,145099,178178
1,Minas Gerais,4122029,197518,64799
2,Rio Grande do Sul,2940791,260558,41716
3,Paraná,2903031,261966,45919
4,Rio de Janeiro,2719059,165180,76636
5,Santa Catarina,1971482,275163,22615
6,Goiás,1862817,285567,27885
7,Bahia,1783192,117881,31349
8,Ceará,1446481,163577,28091
9,Espírito Santo,1317879,339218,15001


Convertendo os dados para 'int64'

In [11]:
df['total_casos'] = df['total_casos'].astype('int64')
df['a_cada_milhao'] = df['a_cada_milhao'].astype('int64')
df['total_mortes'] = df['total_mortes'].astype('int64')
df.dtypes

local            object
total_casos       int64
a_cada_milhao     int64
total_mortes      int64
dtype: object

> Limpeza e preparação do DataFrame finalizadas salvando em formato csv

In [12]:
df.to_csv('csv/casosXmortes-covid.csv')

In [13]:
df

Unnamed: 0,local,total_casos,a_cada_milhao,total_mortes
0,São Paulo,6389460,145099,178178
1,Minas Gerais,4122029,197518,64799
2,Rio Grande do Sul,2940791,260558,41716
3,Paraná,2903031,261966,45919
4,Rio de Janeiro,2719059,165180,76636
5,Santa Catarina,1971482,275163,22615
6,Goiás,1862817,285567,27885
7,Bahia,1783192,117881,31349
8,Ceará,1446481,163577,28091
9,Espírito Santo,1317879,339218,15001
