In [5]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import seaborn as sns
pd.plotting.register_matplotlib_converters()
import matplotlib.pyplot as plt
%matplotlib inline

# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# You can write up to 20GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All" 
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session

In [18]:
df

**Line Charts**

In [7]:
## Atribuindo banco de dados a variavel "df"
df = pd.read_csv('/kaggle/input/corona-virus-report/covid_19_clean_complete.csv', index_col='Date', parse_dates=True)

## Agrupando as colunas 'WHO Region' e 'Date', e somando as mortes por regiao
americas_deaths = df.loc[df['WHO Region'] == 'Americas'].groupby('Date').Deaths.sum()
eastern_mediterranean_deaths = df.loc[df['WHO Region'] == 'Eastern Mediterranean'].groupby('Date').Deaths.sum()
europe_deaths = df.loc[df['WHO Region'] == 'Europe'].groupby('Date').Deaths.sum()

## Plotando Line Charts para analise
plt.figure(figsize=(12,5))
plt.title("Progressão do Número de Mortes")
sns.lineplot(data = americas_deaths, label='Americas')
sns.lineplot(data = eastern_mediterranean_deaths, label='Eastern Mediterranean')
sns.lineplot(data = europe_deaths, label='Europe')

**Respostas - Line Charts**

A partir do gráfico acima pode-se observar que as regiões "Americas" e "Europe" apresentaram números de mortes significativamente maiores quando comparadas com a região "Eastern Mediterranean". Além disso, a região "Europe" apresenta um início do crescimento da progressão antecipado em relação as outras regiões, mas sua taxa de crescimento aponta para estabilidade a partir de maio de 2020. Entretanto os números de  mortes das regiões "Europe" e "Eastern Mediterranean" tendem a continuar crescendo.

**Bar Charts**

In [21]:
## Recriando banco de dados do exercício 4.1-4

## Atribuindo banco de dados a variavel "wmd"
wmd = pd.read_csv('/kaggle/input/corona-virus-report/worldometer_data.csv')

## Filtrando dados
df_infos = df[['Country/Region','Deaths']].groupby('Country/Region').sum()

## Mesclando "world meter data.csv" e “covid_19_clean_complete”
df_mix = df_infos.merge(wmd[['Country/Region','Population','Continent']], on = 'Country/Region')

## Agrupando DataFrame mesclado por continente
deaths_per_continent = df_mix.groupby('Continent', as_index=False).sum()

## Criando coluna "Deaths_per_Million"
deaths_per_continent['Deaths_per_Million'] = (deaths_per_continent['Deaths']/deaths_per_continent['Population'])*(10**6)

## Ranking
ranking = deaths_per_continent.sort_values(by = 'Deaths_per_Million', ascending=False)
ranking['Ranking'] = [i for i in range(1,len(deaths_per_continent)+1)]
ranking = ranking.set_index('Ranking')
ranking

In [19]:
## Plotando gráfico de barras
plt.figure(figsize=(10,6))
plt.title("Número de Mortes Por Continente")
plt.ylabel("Mortes")
plt.bar('Continent', 'Deaths', data = df_mix)

**Respostas - Bar Charts**

De acordo com o gráfico acima a europa e a américa do sul apresentaram maior número de mortos por COVID-19. Por outro lado, a oceania não registrou ocorrência de morte por COVID-19 até o momento de criação do dataset, isto pode estar atrelado a diversos fatores. Podemos citar a posição grográfica, população flutuante e qualidade do sistema de saúde como possíveis motivos para tal dado.

**Scatter Plots**

In [36]:
## Visualizando os continentes com maior média de mortes por milhão de habitantes
wmd[['Continent', 'Deaths/1M pop']].groupby('Continent', as_index=False).mean().sort_values('Deaths/1M pop', ascending=False)

In [49]:
## Separando os continentes de interesse
continents = wmd.loc[(wmd['Continent'] == 'South America')|
                     (wmd['Continent'] == 'Europe')|
                     (wmd['Continent'] == 'North America'),
                     ['Continent','Population','Deaths/1M pop']]

## Criando Scatterplot
plt.figure(figsize=(11,6))
plt.title("Relação: População x Mortes por Milhão")
sns.scatterplot(x = 'Deaths/1M pop', y = 'Population', hue = 'Continent',data = continents)

**Respostas - Scatter Plots**

Dado o gráfico acima pode-se observar que a maioria dos dados está concentrado nos países da faixa de 0 a 200 mortes por milhão, com população inferior a 50 milhões de habitantes. Além disso, o continente europeu apresentou a maior taxa de mortes por milhão de habitantes quando comparado aos outros continentes. Não é possivel construir uma relação direta entre as features, entretanto é importante notar que as maiores taxas de mortes por milhão estão concentradas nos países de população inferior a 100 milhões de habitantes

**Heatmap**

In [52]:
## Atribuindo correlações do dataframe a variavel corr
corr = wmd.corr()

## Criando heatmap
plt.figure(figsize=(13,13))
plt.title('Correlação Entre Colunas')
sns.heatmap(corr, annot=True, square=True)

**Respostas - Heatmap**

Observe que o coeficiente de correlação entre "Population" e "Deaths/1M pop" apresentou um valor muito próximo de 0, ou seja , de fato essas features são praticamente independentes como analisado no scatter plot