# Covid-19 no Brasil

Este notebook tem como objetivo fornecer uma análise e visualização dos dados sobre o [covid-19 no Brasil](https://www.kaggle.com/unanimad/corona-virus-brazil). 

* **Mateus Mendes Ramalho da Silva**
* mateus.mendes.mmr@gmail.com
* Bacharel em ciência da computação pela Universidade do Estado do Rio Grande do Norte
* Cientista de dados

Importando bibliotecas que serão utilizadas:

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from matplotlib import cm
import plotly as py
import plotly.graph_objs as go
from plotly.offline import download_plotlyjs, init_notebook_mode, plot, iplot
init_notebook_mode(connected=True)
%matplotlib inline
plt.style.use('ggplot')
sns.set_style('whitegrid')


Última atualização:

In [None]:
print('Atualizado em:', pd.to_datetime('now'))

Carregando dataset no dataframe:

In [None]:
df=pd.read_csv('../input/corona-virus-brazil/brazil_covid19.csv')


Verificando cabeçalho:

In [None]:
df.head()

Mostrando informações do DataFrame:

In [None]:
df.info()

É interessante também que nas colunas do dataframe possua também as siglas de cada estado. Para isso foi um dicionário foi criado e aplicado com o map() a uma nova coluna do dataframe chamada 'state code':

In [None]:
state_codes = {'Acre':'AC',
               'Alagoas':'AL',
               'Amapá':'AP',
               'Amazonas':'AM',
               'Bahia':'BA',
               'Ceará':'CE',
               'Distrito Federal':'DF',
               'Espírito Santo':'ES',
               'Goiás':'GO',
               'Maranhão':'MA',
               'Mato Grosso':'MT',
               'Mato Grosso do Sul':'MS',
               'Minas Gerais': 'MG',
               'Pará':'PA',
               'Paraíba':'PB',
               'Paraná': 'PR',
               'Pernambuco':'PE',
               'Piauí':'PI',
               'Rio de Janeiro':'RJ',
               'Rio Grande do Norte':'RN',
               'Rio Grande do Sul':'RS',
               'Rondônia':'RO',
               'Roraima':'RR',
               'Santa Catarina':'SC',
               'São Paulo':'SP',
               'Sergipe':'SE',
               'Tocantins':'TO',
              }

In [None]:
df['state code'] = df['state'].map(state_codes)

In [None]:
df.head()

Vamos primeiro pegar somente a fatia do dataframe que representa os números mais recentes do covid-19 para visualizar algumas informações sobre a situação atual do país.

Para pegar os dados mais recentes devemos pegar as últimas 26 linhas, que representam os 26 estados brasileiros.

In [None]:
n_rows = len(df)
loc_recent = n_rows - 27 # Para decidir o indice inicial da fatia, deve-se diminuir o número total por 27

In [None]:
recent = df[loc_recent:].copy()

Verificando dataframe com dados mais recentes:

In [None]:
recent

Qual o número de casos confirmados no Brasil?

In [None]:
recent['cases'].sum()

Qual o número atual de mortes por covid-19?

In [None]:
recent['deaths'].sum()

## Uma análise do panorama nacional por região 

Farei aqui uma análise dos dados separando-os por região do país.

In [None]:
byregion = recent.groupby(['region']).sum()

Qual a região que possui mais casos confirmados?

In [None]:
byregion[byregion['cases'] == byregion['cases'].max()]['cases']

Qual a região que possui mais mortes por covid-19?

In [None]:
byregion[byregion['deaths'] == byregion['deaths'].max()]['deaths']

### Visualizações dos dados sobre o panorama do covid-19 por região do Brasil:

In [None]:
plt.figure(figsize=(12,6))
values = byregion['cases']
labels = byregion.reset_index()['region']
plt.pie(values, labels= values)
plt.title('Número de casos confirmados de covid-19 no Brasil por região')
plt.legend(labels,loc=3, bbox_to_anchor=(1, -0.2, 0.5, 1))

Demonstrando em porcentagem:

In [None]:
plt.figure(figsize=(12,6))
values = byregion['cases']
labels = byregion.reset_index()['region']
plt.pie(values, labels=labels, autopct='%1.1f%%',
counterclock=False, pctdistance=0.6, labeldistance=1.2)
plt.title('Distribuição de casos confirmados de covid-19 no Brasil por região')

In [None]:
plt.figure(figsize=(12,6))
values = byregion['deaths']
labels = byregion.reset_index()['region']
plt.pie(values, labels= values)
plt.title('Número de mortes por covid-19 no Brasil por região')
plt.legend(labels,loc=3, bbox_to_anchor=(1, -0.2, 0.5, 1))

In [None]:
plt.figure(figsize=(12,6))
values = byregion['deaths']
labels = byregion.reset_index()['region']
plt.pie(values, labels=labels, autopct='%1.1f%%',
counterclock=False, pctdistance=0.6, labeldistance=1.2)
plt.title('Distribuição percentual do número de mortes por covid-19 no Brasil por região')

In [None]:
plt.figure(figsize=(12,6))
plt.title('Número de casos confirmados de covid-19 no Brasil por região')
sns.barplot(x='region', y='cases', data=byregion.reset_index(), palette='summer')

In [None]:
plt.figure(figsize=(12,6))
plt.title('Número de mortes por covid-19 no Brasil por região')
sns.barplot(x='region', y='deaths', data=byregion.reset_index(), palette='summer')

## Análise temporal

Aqui farei uma análise dos casos e mortes da covid-19 em relação ao tempo decorrido.

In [None]:
df['date'] = pd.to_datetime(df['date'])

Agrupando dados pela data:

In [None]:
bydate = df.groupby(['date']).sum()

Verificando dataframe:

In [None]:
bydate.tail()

Como está o crescimento do covid-19 no Brasil?

In [None]:
plt.figure(figsize=(12,6))
bydate['cases'].plot(legend=True)
bydate['deaths'].plot()
plt.title("Gráfico de crescimento do covid-19 no Brasil")
plt.legend(['Casos', 'Mortes'])

*Nota-se pelo gráfico que os casos começaram a ter números significativos a partir do dia 12 de março e o número de casos começou a aumentar de forma mais intensa por volta do dia 30 de março. As mortes começaram a se tornar um número significativo por volta do dia 30 de março e crescer mais exponencialmente por volta do dia 6 de abril.*

Gráfico de modelo linear com o avanço do número de casos em relação a quantidade de dados:

In [None]:
sns.lmplot(x='index', y='cases', data=bydate.reset_index().reset_index())

## Análise por estado

Pergunta: Qual o estado que possui mais casos confirmados?

In [None]:
recent[recent['cases'] == recent['cases'].max()]['state']

Com quantos casos?

In [None]:
recent['cases'].max()

Pergunta: Qual o estado que possui mais casos de morte por covid-19?

In [None]:
recent[recent['deaths'] == recent['deaths'].max()]['state']

Com quantos casos?

In [None]:
recent['deaths'].max()

Qual o estado que possui menos casos confirmados de covid-19?

In [None]:
recent[recent['cases'] == recent['cases'].min()]['state']


Com quantos casos?

In [None]:
recent['cases'].min()

Qual o estado que possui menos casos de morte por covid-19?

In [None]:
recent[recent['deaths'] == recent['deaths'].min()]['state']

Com quantos casos?

In [None]:
recent['deaths'].min()

### Visualizações de dados por estado

In [None]:
plt.figure(figsize=(20,8))
plt.title('Número de casos confirmados de covid-19 no Brasil por estado')
sns.barplot(x='state code', y='cases', data=recent.sort_values(ascending=False, by='cases'), palette='summer')

In [None]:
plt.figure(figsize=(20,8))
plt.title('Número de mortes por covid-19 no Brasil por estado')
sns.barplot(x='state code', y='deaths', data=recent.sort_values(ascending=False, by='deaths'), palette='summer')

### Análise e visualização especifica da região nordeste

In [None]:
recents_northeast = recent[recent['region'] == 'Nordeste'].copy()

In [None]:
recents_northeast

Qual o estado nordestino que mais possui casos confirmados por covid-19?

In [None]:
recents_northeast[recents_northeast['cases'] == recents_northeast['cases'].max()]['state']

Com quantos casos?

In [None]:
recents_northeast['cases'].max()

Qual o estado nordestino que possui menos casos?

In [None]:
recents_northeast[recents_northeast['cases'] == recents_northeast['cases'].min()]['state']

Com quantos casos?

In [None]:
recents_northeast['cases'].min()

In [None]:
plt.figure(figsize=(12,10))
values = recents_northeast.sort_values(by='cases', ascending=False)['cases']
labels = recents_northeast.sort_values(by='cases',  ascending=False)['state']
explode = (0.1, 0, 0, 0, 0, 0, 0, 0, 0)
cs=cm.Set1(np.arange(9)/9.)
plt.pie(values, labels= values, explode=explode, colors = cs, autopct='%1.1f%%',
counterclock=False, pctdistance=0.6, labeldistance=1.2)
plt.title('Número de casos confirmados de covid-19 na região nordeste')
plt.legend(labels,loc=3, bbox_to_anchor=(1, -0.2, 0.5, 1))

In [None]:
plt.figure(figsize=(12,8))
plt.title('Número de casos confirmados de covid-19 no Brasil por estado')
sns.barplot(x='state code', y='cases', data=recents_northeast.sort_values(ascending=False, by='cases'), palette='summer')

In [None]:
plt.figure(figsize=(12,10))
values = recents_northeast.sort_values(by='deaths', ascending=False)['deaths']
labels = recents_northeast.sort_values(by='deaths',  ascending=False)['state']
explode = (0.1, 0, 0, 0, 0, 0, 0, 0, 0)
cs=cm.Set1(np.arange(9)/9.)
plt.pie(values, labels= values, explode=explode, colors = cs, autopct='%1.1f%%',
counterclock=False, pctdistance=0.6, labeldistance=1.2)
plt.title('Número de mortes por covid-19 na região nordeste')
plt.legend(labels,loc=3, bbox_to_anchor=(1, -0.2, 0.5, 1))

In [None]:
plt.figure(figsize=(12,8))
plt.title('Número de mortes por covid-19 na região nordeste')
sns.barplot(x='state code', y='deaths', data=recents_northeast.sort_values(ascending=False, by='deaths'), palette='summer')

Nota-se que o Ceará possui o maior número de casos confirmados, porém o Pernambuco é o que possui maior número de mortes por covid-19