In [None]:
import pandas as pd
import plotly.express as px

# Leitura dos Dados

Origem: https://www.kaggle.com/datasets/sudalairajkumar/novel-corona-virus-2019-dataset

In [None]:
dados_covid = pd.read_csv("covid_19_data.csv")

In [None]:
dados_covid.head()

# Entendimento das Colunas

Da própria fonte de dados:

In [None]:
dados_covid.info()

In [None]:
dados_covid.describe()

# Tratamento dos Dados por Coluna

### ObservationDate

In [None]:
dados_covid["ObservationDate"]

In [None]:
# formato MM/DD/YYYY
dados_covid["ObservationDate"] = pd.to_datetime(dados_covid["ObservationDate"], format="%m/%d/%Y")

In [None]:
dados_covid["ObservationDate"]

### Province/State

In [None]:
# dados_covid["Province/State"].sort_values().unique()

**1 - Alguns possuem espaços antes ou depois**

In [None]:
# STRIP: Remoção de Espaços do Início e Final de cada String
dados_covid["Province/State"] = dados_covid["Province/State"].str.strip()

**2 - Alguns possuem o estado junto - Verificar se existe duplicata**

In [None]:
# dados_covid["Province/State"].sort_values().unique()

No segundo caso pode ser bom para identificar a origem específica. Vai depender do objetivo da análise. Se essa coluna realmente for só para province/state poderíamos criar uma nova que permitisse essas específicas e remover todos esses complementos da coluna atual.

In [None]:
dados_covid["Province/State"] = dados_covid["Province/State"].replace({ 
    'Falkland Islands (Islas Malvinas)': 'Falkland Islands',
    'Falkland Islands (Malvinas)': 'Falkland Islands'
})

In [None]:
dados_covid["Province/State"] = dados_covid["Province/State"].replace(
    to_replace=r'[ ]*\([^)]*\)', value='', regex=True
)

**3 - Dados nulos**

In [None]:
len(dados_covid["Province/State"])

In [None]:
dados_covid["Province/State"].isna().sum()

### Country/Region

**1 - Alguns possuem espaços antes ou depois**

In [None]:
# sorted(dados_covid["Country/Region"].unique())

In [None]:
# STRIP: Remoção de Espaços do Início e Final de cada String
dados_covid["Country/Region"] = dados_covid["Country/Region"].str.strip()

**2 - Replaces**

In [None]:
# sorted(dados_covid["Country/Region"].unique())

In [None]:
dados_covid["Country/Region"] = dados_covid["Country/Region"].replace({
    "('St. Martin',)": "St. Martin",
    "Bahamas, The": "Bahamas",
    'Gambia, The': 'Gambia'
})

**3 - Dados Nulos**

In [None]:
dados_covid["Country/Region"].isna().sum()

### Last Update

In [None]:
dados_covid[["Last Update", "ObservationDate"]].iloc[[0,500,1000,10000,13000]]

**1/22/2020 17:00**

In [None]:
match_filter = dados_covid["Last Update"].str.match("[0-9]{1,2}\/[0-9]{1,2}\/[0-9]{4} [0-9]{1,2}:[0-9]{2}")

In [None]:
dados_covid.loc[match_filter, "Last Update (ts)"] = pd.to_datetime(
    dados_covid["Last Update"].loc[match_filter], 
    format="%m/%d/%Y %H:%M"
)

**3/8/20 5:31**

In [None]:
match_filter = dados_covid["Last Update"].str.match("[0-9]{1,2}\/[0-9]{1,2}\/[0-9]{2} [0-9]{1,2}:[0-9]{2}")

In [None]:
dados_covid.loc[match_filter, "Last Update (ts)"] = pd.to_datetime(
    dados_covid["Last Update"].loc[match_filter], 
    format="%m/%d/%y %H:%M"
)

**2020-02-01T01:52:40**

In [None]:
match_filter = dados_covid["Last Update"].str.match("[0-9]{4}-[0-9]{1,2}-[0-9]{1,2}T[0-9]{2}:[0-9]{2}:[0-9]{2}")

In [None]:
dados_covid.loc[match_filter, "Last Update (ts)"] = pd.to_datetime(
    dados_covid["Last Update"].loc[match_filter], 
    format="%Y/%m/%dT%H:%M:%S"
)

**2020-02-01 01:52:40**

In [None]:
match_filter = dados_covid["Last Update"].str.match("[0-9]{4}-[0-9]{1,2}-[0-9]{1,2} [0-9]{2}:[0-9]{2}:[0-9]{2}")

In [None]:
dados_covid.loc[match_filter, "Last Update (ts)"] = pd.to_datetime(
    dados_covid["Last Update"].loc[match_filter], 
    format="%Y/%m/%d %H:%M:%S"
)

**Verificando se Atualizamos Todos**

In [None]:
dados_covid["Last Update (ts)"].isna().sum()

**Atualizando a Coluna**

In [None]:
dados_covid["Last Update"] = dados_covid["Last Update (ts)"]

In [None]:
dados_covid.drop("Last Update (ts)", axis=1, inplace=True)

### Confirmed

In [None]:
dados_covid["Confirmed"].dtype # ok

In [None]:
dados_covid["Confirmed"].describe()

**Análise:** Estranho ter dados negativos.

In [None]:
dados_covid["Confirmed"].plot.hist(bins=30)

In [None]:
px.histogram(dados_covid["Confirmed"])

**Remoção de negativos**

In [None]:
dados_covid[dados_covid["Confirmed"] < 0]

In [None]:
indices_removidos = dados_covid[dados_covid["Confirmed"] < 0].index

In [None]:
dados_covid.drop(index=indices_removidos, inplace=True)

### Deaths

In [None]:
dados_covid["Deaths"].dtype # ok

In [None]:
dados_covid["Deaths"].describe()

**Análise:** Estranho ter dados negativos.

In [None]:
dados_covid["Deaths"].plot.hist(bins=30)

**Remoção de negativos**

In [None]:
dados_covid[dados_covid["Deaths"] < 0]

In [None]:
dados_covid.drop(index=dados_covid[dados_covid["Deaths"] < 0].index, inplace=True)

### Recovered

In [None]:
dados_covid["Recovered"].dtype # ok

In [None]:
dados_covid["Recovered"].describe()

**Análise:** Estranho ter dados negativos.

In [None]:
dados_covid["Recovered"].plot.hist(bins=30)

**Remoção de negativos**

In [None]:
dados_covid[dados_covid["Recovered"] < 0]

In [None]:
dados_covid.drop(index=dados_covid[dados_covid["Recovered"] < 0].index, inplace=True)

### Dados da Colombia

Todos os dados estranhos são da colombia

In [None]:
dados_colombia = dados_covid[dados_covid["Country/Region"] == "Colombia"]

In [None]:
dados_colombia.pivot(index="ObservationDate", columns="Province/State", values="Confirmed")

In [None]:
pivot_colombia = dados_colombia.pivot(index="ObservationDate", columns="Province/State", values="Confirmed")

In [None]:
px.line(dados_colombia.pivot(index="ObservationDate", columns="Province/State", values="Confirmed"))

In [None]:
px.line(dados_colombia.pivot(index="ObservationDate", columns="Province/State", values="Deaths"))

In [None]:
px.line(dados_colombia.pivot(index="ObservationDate", columns="Province/State", values="Recovered"))

# Tratamento de Duplicatas

In [None]:
dados_covid = dados_covid.drop_duplicates(subset=["ObservationDate", "Province/State", "Country/Region"], keep="last")

# Análise Brasil

In [None]:
dados_brasil = dados_covid[dados_covid["Country/Region"] == "Brazil"]

In [None]:
dados_brasil

In [None]:
# Vamos apagar os dados nulos pois sao de quando nao dividia por estado
dados_brasil = dados_brasil.dropna()

In [None]:
px.line(dados_brasil.pivot(index="ObservationDate", columns="Province/State", values="Deaths"))

## Interpolação de Séries

### Exemplo

In [None]:
dados_rio = dados_brasil[dados_brasil["Province/State"] == "Rio de Janeiro"].set_index("ObservationDate").sort_index()
dados_rio

In [None]:
sample_dados_rio = dados_rio.sample(int(len(dados_rio) * 0.1)).sort_index()

In [None]:
sample_dados_rio["Confirmed"].plot(markeredgecolor="red", marker='x')

In [None]:
sample_dados_rio["Confirmed"].asfreq('d').interpolate("linear").plot(markeredgecolor="red", marker='x')

# Correlação de dados

In [None]:
pivot_covid = dados_covid.pivot_table(index="ObservationDate", columns="Country/Region", values="Confirmed", aggfunc="sum")

In [None]:
paises_selecionados = ["Brazil", "Ecuador", "Chile", "Argentina", "US", "Canada", "UK", "Italy", "Mainland China", "Australia"]
pivot_selecionados = pivot_covid[paises_selecionados]

In [None]:
pivot_selecionados

**Dados Nulos são preocupantes pois quebram a correlação**

In [None]:
pivot_selecionados = pivot_selecionados.iloc[50:]

In [None]:
corr_dados = pivot_selecionados.corr()

In [None]:
corr_dados["Brazil"].sort_values().dropna()

In [None]:
# Perceba que correlacao nao tem a ver com os valores brutos em si, mas com a relacao de crescimento

pivot_selecionados[["Brazil", "Ecuador"]].plot()

In [None]:
# Correlacao ajustada

valores_finais = pivot_selecionados[["Brazil", "Ecuador"]].iloc[-1]

(pivot_selecionados[["Brazil", "Ecuador"]] / valores_finais).plot()

In [None]:
# Correlacao ajustada

valores_finais = pivot_selecionados[["Brazil", "Australia"]].iloc[-1]

(pivot_selecionados[["Brazil", "Australia"]] / valores_finais).plot()

In [None]:
# Perceba como a australia de fato tem uma curva diferente das demais

valores_iniciais = pivot_selecionados[paises_selecionados].iloc[0]
valores_finais = pivot_selecionados[paises_selecionados].iloc[-1]
( (pivot_selecionados[paises_selecionados] - valores_iniciais) / (valores_finais - valores_iniciais) ).plot()