**Objetivo:** Desenvolver um script em Python que automatize o processo de download de dados sobre COVID-19 a partir de um site específico, salve os dados em um arquivo local e gere um gráfico a partir desses dados. O desafio envolve acessar um site confiável de estatísticas sobre COVID-19, baixar os dados mais recentes, processá-los e visualizar as informações por meio de um gráfico. No final gere um relatório em excel.

- https://covid.ourworldindata.org

**Instruções:**

1. **Criação do Ambiente de Desenvolvimento:**
    - Crie um ambiente virtual (venv) para o projeto.
    - Instale as bibliotecas necessárias para automação, download de arquivos e visualização de dados.
2. **Automatização do Download de Dados:**
    - Utilize Python para acessar um site de estatísticas sobre COVID-19 e baixar os dados mais recentes (por exemplo, em formato CSV).
3. **Processamento e Visualização dos Dados:**
    - Leia o arquivo baixado, processe os dados relevantes e crie um gráfico que mostre, por exemplo, a evolução diária de casos ou mortes.
4. **Execução e Testes:**
    - Execute o script para garantir que os dados são baixados corretamente e que o gráfico é gerado com precisão.

### **Instrução:**

- Configure e execute o script para garantir que os dados COVID-19 são baixados corretamente e que o gráfico é gerado com precisão.
- Experimente filtrar os dados para diferentes países ou regiões e criar gráficos adicionais para análise comparativa.
- Teste o script com diferentes intervalos de tempo e variáveis (como novos casos, novas mortes, vacinação, etc).

## Montando a Análise dos Dados.

Essa etapa é de suma importância para que o analista/pesquisador possa dimensionar e projetar os dados obtidos/coletados para o mundo real, visando facilitar a interpretação dos mesmos, e auxiliar as partes interessadas na tomada de decisão.

E para alcançar tal objetivo, precisamos seguir algumas etapas:

1. Amostragem
2. Tratamento
3. Uso dos Métodos Estatísticos
4. Testes de Hipótese

## Amostragem

In [1]:
import pandas as pd
import numpy as np

import plotly.express as px
import plotly.figure_factory as ff

import matplotlib.pyplot as plt
import seaborn as sns

ModuleNotFoundError: No module named 'pandas'

In [3]:
CSV_URL = "https://catalog.ourworldindata.org/garden/covid/latest/compact/compact.csv"

dataset = pd.read_csv(CSV_URL, sep=",")

In [4]:
dataset.to_csv(
    r"C:\Users\matutino\Documents\projects\BotCity\desafio05\assets\dataset.csv"
)  # salvar o CSV baixado

In [5]:
sample = dataset.sample(frac=0.1, replace=True, random_state=1)

sample.to_csv(
    r"C:\Users\matutino\Documents\projects\BotCity\desafio05\assets\sample.csv"
)  # salvar o CSV baixado

In [6]:
# substituir valores nulos
dataset.replace(np.nan, 0, inplace=True)
sample.replace(np.nan, 0, inplace=True)

In [None]:
dataset.info()

In [None]:
dataset.describe()

In [9]:
# selecionando amostras vindas do Brasil, Argentina e Chile
sample_brazil = sample[sample['country'] == 'Brazil']
sample_argen = sample[sample['country'] == 'Argentina']
sample_chile = sample[sample['country'] == 'Chile']

In [None]:
sample_brazil.head(5)

In [None]:
sample_argen.head(5)

In [None]:
sample_chile.head(5)

In [None]:
# Unindo as 3 amostras em 1

frames = [sample_brazil, sample_argen, sample_chile]
sampleMerged= pd.concat(frames)
sampleMerged.head(10)

In [None]:
# buscando infos estatisticas do Brasil

infos_total_cases = [
  sample_brazil['total_cases'].mean(),
  sample_brazil['total_cases'].mode().iat[0],
  sample_brazil['total_cases'].median(),
  sample_brazil['total_cases'].max() - sample_brazil['total_cases'].min(),
  sample_brazil['total_cases'].var(),
  sample_brazil['total_cases'].std()
]

infos_new_cases = [
  sample_brazil['new_cases'].mean(),
  sample_brazil['new_cases'].mode().iat[0],
  sample_brazil['new_cases'].median(),
  sample_brazil['new_cases'].max() - sample_brazil['new_cases'].min(),
  sample_brazil['new_cases'].var(),
  sample_brazil['new_cases'].std()
]

sample_brazil['new_cases_smoothed_per_million'] = pd.to_numeric(sample_brazil['new_cases_smoothed_per_million'], errors='coerce')

infos_new_cases_smoothed = [
  sample_brazil['new_cases_smoothed_per_million'].mean(),
  sample_brazil['new_cases_smoothed_per_million'].mode().iat[0],
  sample_brazil['new_cases_smoothed_per_million'].median(),
  sample_brazil['new_cases_smoothed_per_million'].max() - sample_brazil['new_cases_smoothed_per_million'].min(),
  sample_brazil['new_cases_smoothed_per_million'].var(),
  sample_brazil['new_cases_smoothed_per_million'].std()
]

infos_new_deaths = [
  sample_brazil['new_deaths'].mean(),
  sample_brazil['new_deaths'].mode().iat[0],
  sample_brazil['new_deaths'].median(),
  sample_brazil['new_deaths'].max() - sample_brazil['new_deaths'].min(),
  sample_brazil['new_deaths'].var(),
  sample_brazil['new_deaths'].std()
]

infos_total_deaths = [
  sample_brazil['total_deaths'].mean(),
  sample_brazil['total_deaths'].mode().iat[0],
  sample_brazil['total_deaths'].median(),
  sample_brazil['total_deaths'].max() - sample_brazil['total_deaths'].min(),
  sample_brazil['total_deaths'].var(),
  sample_brazil['total_deaths'].std()
]

sample_brazil['new_deaths_smoothed_per_million'] = pd.to_numeric(sample_brazil['new_deaths_smoothed_per_million'], errors='coerce')

infos_total_deaths_smoothed = [
  sample_brazil['new_deaths_smoothed_per_million'].mean(),
  sample_brazil['new_deaths_smoothed_per_million'].mode().iat[0],
  sample_brazil['new_deaths_smoothed_per_million'].median(),
  sample_brazil['new_deaths_smoothed_per_million'].max() - sample_brazil['new_deaths_smoothed_per_million'].min(),
  sample_brazil['new_deaths_smoothed_per_million'].var(),
  sample_brazil['new_deaths_smoothed_per_million'].std()
]

# Mesclar informações em um Dataframe
dictInfos = {
  'Colunas': ['Total de Casos', 'Novos Casos', 'Novos Casos Suavizados', 'Obitos Recentes', 'Total de Obitos', 'Total de Obitos Suavizados'],
  'Media': [infos_total_cases[0], infos_new_cases[0], infos_new_cases_smoothed[0], infos_new_deaths[0], infos_total_deaths[0], infos_total_deaths_smoothed[0]],
  'Moda': [infos_total_cases[1], infos_new_cases[1], infos_new_cases_smoothed[1], infos_new_deaths[1], infos_total_deaths[1], infos_total_deaths_smoothed[1]],
  'Mediana': [infos_total_cases[2], infos_new_cases[2], infos_new_cases_smoothed[2], infos_new_deaths[2], infos_total_deaths[2], infos_total_deaths_smoothed[2]],
  'Amplitude': [infos_total_cases[3], infos_new_cases[3], infos_new_cases_smoothed[3], infos_new_deaths[3], infos_total_deaths[3], infos_total_deaths_smoothed[3]],
  'Variância': [infos_total_cases[4], infos_new_cases[4], infos_new_cases_smoothed[4], infos_new_deaths[4], infos_total_deaths[4], infos_total_deaths_smoothed[4]],
  'Desvio-Padrão': [infos_total_cases[5], infos_new_cases[5], infos_new_cases_smoothed[5], infos_new_deaths[5], infos_total_deaths[5], infos_total_deaths_smoothed[5]],
}

df_infos_brazil = pd.DataFrame(dictInfos)

df_infos_brazil

In [None]:
# vendo a correlação das colunas númericas da amostra do Brasil
sample_brazil_corr = sample_brazil.drop(
  columns=['code', 'continent', 'country', 'date']
)

sample_brazil_corr.corr()

In [None]:
sns.heatmap(sample_brazil_corr.corr()) # correlação em Mapa de Calor

In [None]:
# Plotando os dados no tempo
fig = px.histogram(
  sample_brazil,
  title='Quantidade de Novos Casos de Covid-19 (Brasil)',
  labels={'date': 'Meses de 2020 a 2023', 'new_cases': 'Novos Casos'},
  x="date",
  y="new_cases"
)

fig.update_layout(bargap=0.1)
fig.show()

In [None]:
# Plotando os dados no tempo

fig = px.histogram(
  sample_argen,
  title='Quantidade de Novos Casos de Covid-19 (Argentina)',
  labels={'date': 'Meses de 2020 a 2023', 'new_cases': 'Novos Casos'},
  x="date",
  y="new_cases"
)

fig.update_layout(bargap=0.1)
fig.show()

In [None]:
# Plotando os dados no tempo

fig = px.histogram(
  sample_chile,
  title='Quantidade de Novos Casos de Covid-19 (Chile)',
  labels={'date': 'Meses de 2020 a 2023', 'new_cases': 'Novos Casos'},
  x="date",
  y="new_cases"
)

fig.update_layout(bargap=0.1)
fig.show()

In [None]:
# Comparando os Novos Casos das amostras de Brasil, Argentina e Chile

sns.set_theme(style="darkgrid")

sns.lineplot(
  x="date",
  y="new_cases",
  hue="country",
  data=sampleMerged
)