Dataset disponível em: https://www.kaggle.com/datasets/unanimad/corona-virus-brazil

In [2]:
# Importanto as bibiliotecas necessárias para esse projeto.
import pandas as pd
import numpy as np
from datetime import datetime
import plotly.express as px
import plotly.graph_objects as go
import re

In [3]:
# Realiza a leitura do arquivo CSV, converte a coluna 'Date' em Data e separa as colunas por vírgula(,).
archive = 'brazil_covid19.csv'
df = pd.read_csv(archive, parse_dates=['date'], sep=',')

In [4]:
# Vamos dar uma 'primeira olhada' em nossos dados para entender como eles se parecem e como trabalharemos com eles.
# Iremos análisar apartir do primeiro caso confirmado e a coluna 'cases' está no tipo float, devemos converter para int
display(df)

Unnamed: 0,date,region,state,cases,deaths
0,2020-02-25,Centro-Oeste,DF,0.0,0
1,2020-02-25,Centro-Oeste,GO,0.0,0
2,2020-02-25,Centro-Oeste,MS,0.0,0
3,2020-02-25,Centro-Oeste,MT,0.0,0
4,2020-02-25,Nordeste,AL,0.0,0
...,...,...,...,...,...
12253,2021-05-23,Sudeste,RJ,840480.0,49515
12254,2021-05-23,Sudeste,SP,3188105.0,107614
12255,2021-05-23,Sul,PR,1060683.0,25506
12256,2021-05-23,Sul,RS,1059990.0,27419


In [5]:
# Filtragem para receber o dataframe apenas com os registros que possuem casos confirmados maior que 0.
df = df.loc[(df.cases > 0)]

# Com os dados filtrados agora precisamos criar um novo index.
df = df.reset_index() 
df = df.drop('index', axis = 1)

# Converter a coluna 'cases' para o tipo int.
df['cases'] = df['cases'].astype(int)

In [10]:
display(df.head(10))

Unnamed: 0,date,region,state,cases,deaths
0,2020-02-26,Sudeste,SP,1,0
1,2020-02-27,Sudeste,SP,1,0
2,2020-02-28,Sudeste,SP,1,0
3,2020-02-29,Sudeste,SP,2,0
4,2020-03-01,Sudeste,SP,2,0
5,2020-03-02,Sudeste,SP,2,0
6,2020-03-03,Sudeste,SP,2,0
7,2020-03-04,Sudeste,SP,3,0
8,2020-03-05,Sudeste,RJ,1,0
9,2020-03-05,Sudeste,SP,6,0


In [11]:
total_region = df.drop(labels='state', axis=1)

In [13]:
total_region = df.groupby('region').sum()

In [14]:
total_region

Unnamed: 0_level_0,cases,deaths
region,Unnamed: 1_level_1,Unnamed: 2_level_1
Centro-Oeste,278342655,6040613
Nordeste,635542369,16758359
Norte,295100691,7203570
Sudeste,918241551,31828340
Sul,428751385,8063441


In [6]:
# Número total de casos e mortes por região.
totalPerRegion = df.groupby('region').sum()
# Número total de casos.
totalCases  = totalPerRegion['cases'].sum()
# Número total de mortes.
totalDeaths = totalPerRegion['deaths'].sum()

In [7]:
# Dataframe mostrando a evolução total dos números de casos e mortes por região.
dateRegion_group = df.groupby(['date', 'region']).sum()
dateRegion_group = dateRegion_group.reset_index()

In [17]:
dateRegion_group.to_csv('total_por_regiao.csv')

In [8]:
dateTotal_group = df.drop(labels=['region', 'state'], axis=1)
dateTotal_group = dateTotal_group.groupby('date').sum()

In [9]:
display(dateTotal_group)

Unnamed: 0_level_0,cases,deaths
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2020-02-26,1,0
2020-02-27,1,0
2020-02-28,1,0
2020-02-29,2,0
2020-03-01,2,0
...,...,...
2021-05-19,15812055,441691
2021-05-20,15894094,444094
2021-05-21,15970949,446309
2021-05-22,16047439,448208


In [18]:
dateTotal_group.to_csv('total_por_data.csv')

In [None]:
display(dateRegion_group)

Site salvador: https://www.sharpsightlabs.com/blog/python-data-analysis-covid19-calculate-new-cases/

In [None]:
# Consulta para receber os novos casos diários do dataframe.
novos_casos_por_estado = (df
                           .sort_values(by = ['region', 'state', 'date'])
                           .filter(['region','state', 'date', 'cases'])
                           .groupby(['region', 'state'])
                           .cases
                           .diff()
                         )

# Consulta para receber as novas mortes diárias do dataframe.
novas_mortes_por_estado = (df
                           .sort_values(by = ['region', 'state', 'date'])
                           .filter(['region','state', 'date', 'deaths'])
                           .groupby(['region', 'state'])
                           .deaths
                           .diff()
                         )


In [None]:
# Atribui a consulta para uma nova coluna que será criada no dataframe.
df = df.assign(new_cases_per_state = novos_casos_por_estado, new_deaths_per_state = novas_mortes_por_estado)
# Preenche todos os valores NaN como 0.
df = df.fillna(0)

df['new_cases_per_state']  = df['new_cases_per_state'].astype(int)
df['new_deaths_per_state'] = df['new_deaths_per_state'].astype(int)

In [None]:
df['deaths'] = df['deaths'].astype(int)

In [None]:
df.query('region in ["Sudeste"]')

In [None]:
df.dtypes

In [None]:
dateTotal_group.head()

In [None]:
df.head()

In [None]:
df.loc[(df['date'] == '2020-03-09')]

In [None]:
#df.to_csv('dados_covid_tratados.csv')