## Grupo 7

   #### Participantes na primeira entrega:
       Lucas Santos de Oliveira
       Lucas Madaloni Meira Varella
       Nathan Sargon Werlich
       Sadi Júnior Domingos Jacinto
        
   #### Participantes na segunda entrega:
       Sadi Júnior Domingos Jacinto

### Entendimento dos Dados (_Data Understanding_)

1. Coleta inicial dos dados:
  - Foi utilizado o _dataset_ _owid-covid-data.csv_, contido no repositório [https://github.com/owid/covid-19-data](https://github.com/owid/covid-19-data), que pode ser encontrado nesse [_link_](https://covid.ourworldindata.org/data/owid-covid-data.csv).

2. Descrição dos Dados:

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
# Para garantir que o presente notebook seja funcional mesmo estando offline, foi adicionado o dataset em anexo.
# Caso queira utilizar o dataset on-line, descomente a linha abaixo e depois comente a última linha dessa cédula
# data = pd.read_csv('https://covid.ourworldindata.org/data/owid-covid-data.csv')
data = pd.read_csv('owid-covid-data.csv')

Vamos iniciar analisando quais são os tipos de dados disponíveis, sua quantidade, a correlação entre as variáveis e uma breve visualização humana também.

In [None]:
data.shape

In [None]:
# Por existirem muitas colunas, é necessário configurar o pandas para exibir todas.
pd.set_option('max_column', None)
pd.set_option('max_row', None)

In [None]:
data.dtypes

In [None]:
data.head(15)

Aqui percebemos algumas coisas interessantes:

- O atributo _date_, é uma data no formato yyyy-mm-dd, mas está sendo interpretado pelo pandas como um object ou, mais precisamente, uma str. Logo de cara encontramos uma necessidade de transformação de tipos.
- Existe uma quantidade muito grande de valores NaN, que devem ser tratados, seja por inferência ou remoção.
- Existem diversos valores numéricos, como _population_ que deveriam ser inteiros mas estão sendo interpretados como _float_.

In [None]:
data.describe()

In [None]:
data.corr()

In [None]:
plt.figure(figsize=(12, 9))
sns.heatmap(data.corr(), annot=False)

Como deve ter ficado claro na análise de correlação entre as variáveis nas duas células acima, o número de atributos é grande o suficiente para dificultar a visualização e análise dos mesmos. Vamos, então, analisar a descrição oficial de cada um desses atributos, acessível nesse [link](https://github.com/owid/covid-19-data/blob/master/public/data/owid-covid-codebook.csv).

Por se tratar de uma atividade bastante extensa, e para não lotar esse notebook de informações textuais que ninguém vai ler de fato, essa etapa não será detalhada.

Após ser realizado o estudo do significado de cada um dos atributos, devemos verificar a qualidade dos mesmos, à saber:
- Valores faltantes ou nulos
- Valores duplicados

In [None]:
data.isna().sum()

Uma visualização gráfica desses dados nulos pode ser feita usando a biblioteca missingno.

In [None]:
import missingno as msno
msno.matrix(data, figsize=(15, 5))

In [None]:
data.duplicated().sum()

### Preparação de Dados (_Data Preparation_)

1. Seleção de Dados:  
De forma resumida, as colunas que nos interessam são:
  - iso_code: Sigla do País
  - continent: continente do país
  - location: nome do país
  - date: data do registro
  - total_cases: número total de casos confirmados de COVID-19
  - new_cases: novos casos confirmados de COVID-19
  - new_cases_smoothed: novos casos confirmados de COVID-19 (com suavização de 7 dias)
  - total_deaths: mortes confirmadas por COVID-19
  - new_deaths: novas mortes confirmadas por COVID-19
  - new_deaths_smoothed: novas mortes confirmadas por COVID-19 (com suavização de 7 dias)
  - total_cases_per_million: número total de casos confirmados de COVID-19 por milhão
  - new_cases_per_million: novos casos confirmados de COVID-19 por milhão
  - new_cases_smoothed_per_million: novos casos confirmados de COVID-19 por milhão (com suavização de 7 dias)
  - total_deaths_per_million: mortes confirmadas por COVID-19 por milhão
  - new_deaths_per_million: novas mortes confirmadas por COVID-19 por milhão
  - new_deaths_smoothed_per_million: novas mortes confirmadas por COVID-19 por milhão (com suavização de 7 dias)
  - reproduction_rate: taxa de reprodução do vírus
  - hosp_patients: Número de pacientes em um hospital com COVID-19 na data
  - hosp_patients_per_million: Número de pacientes em um hospital com COVID-19 na data por milhão
  - weekly_hosp_admissions: número de pacientes com COVID-19 admitidos em hospitais por semana.
  - weekly_hosp_admissions_per_million: número de pacientes com COVID-19 admitidos em hospitais por semana por milhão.
  - new_tests: novos testes de COVID-19
  - total_tests: total de testes de COVID-19
  - total_tests_per_thousand: total de testes de COVID-19 a cada 1000 pessoas
  - new_tests_per_thousand: novos testes de COVID-19 a cada 1000 pessoas
  - new_tests_smoothed: novos testes de COVID-19 com suavização de 7 dias
  - new_tests_smoothed_per_thousand: novos testes de COVID-19 com suavização de 7 dias a cada 1000 pessoas
  - positive_rate: taxa de positivação dos testes
  - total_vaccinations: total de vacinas aplicadas
  - people_vaccinated: total de pessoas que receberam ao menos uma dose da vacina
  - people_fully_vaccinated: total de pessoas que receberam todas as doses da vacina
  - new_vaccinations: novas vacinas aplicadas
  - new_vaccinations_smoothed: novas vacinas aplicadas por semana.
  - total_vaccinations_per_hundred: total de vacinas a cada 100 pessoas
  - people_vaccinated_per_hundred: total de pessoas que tomaram ao menos uma dose a cada 100 pessoas
  - people_fully_vaccinated_per_hundred: total de pessoas que tomaram todas as doses a cada 100 pessoas
  - new_vaccinations_smoothed_per_million: novas vacinações aplicadas por semana a cada 1 milhão de pessoas
  - population: população do país em 2020
  - median_age: média da idade da população em 2020
  - aged_65_older: porcentagem da população com mais de 65 anos
  - aged_70_older: porcentagem da população com mais de 70 anos
  - gdp_per_capita: poder de compra da população usando o valor do dolar em 2011.
  - extreme_poverty: porcentagem da população vivendo em extrema pobreza.
  - female_smokers: porcentagem de mulheres fumantes na população
  - male_smokers: porcentagem de homens fumantes na população
  - handwashing_facilities: porcentagem da população com acesso à "lavar as mãos"
  - hospital_beds_per_thousand: vagas no hospital por 1000 pessoas 
  - life_expectancy: expectativa de vida da população do país
  - human_development_index: IDH do país

Com os atributos selecionados, precisamos, agora, criar um novo Dataframe apenas com esses atributos e refazer nossa análise inicial dos dados:

In [None]:
attributes = ['iso_code', 'continent', 'location', 'date', 'total_cases', 'new_cases', 'new_cases_smoothed',
              'total_deaths', 'new_deaths', 'new_deaths_smoothed', 'total_cases_per_million', 
              'new_cases_per_million', 'new_cases_smoothed_per_million', 'total_deaths_per_million',
              'new_deaths_per_million', 'new_deaths_smoothed_per_million', 'reproduction_rate',
              'hosp_patients', 'hosp_patients_per_million', 'weekly_hosp_admissions', 
              'weekly_hosp_admissions_per_million', 'new_tests', 'total_tests', 'total_tests_per_thousand',
              'new_tests_per_thousand', 'new_tests_smoothed', 'new_tests_smoothed_per_thousand',
              'positive_rate', 'total_vaccinations', 'people_vaccinated', 'people_fully_vaccinated',
              'new_vaccinations', 'new_vaccinations_smoothed', 'total_vaccinations_per_hundred',
              'people_vaccinated_per_hundred', 'people_fully_vaccinated_per_hundred',
              'new_vaccinations_smoothed_per_million', 'population', 'median_age', 'aged_65_older',
              'aged_70_older', 'gdp_per_capita', 'extreme_poverty', 'female_smokers', 'male_smokers',
              'handwashing_facilities', 'hospital_beds_per_thousand', 'life_expectancy', 'human_development_index']

dataset = data[attributes].copy()
del data

In [None]:
dataset.shape

In [None]:
plt.figure(figsize=(12, 9))
sns.heatmap(dataset.corr(), annot=False)

In [None]:
msno.heatmap(dataset)

In [None]:
dataset.corr()

Vamos, primeiro, tratar dos poucos valores categóricos que temos:

In [None]:
dataset['iso_code'].unique()

Precisamos converter os valores iniciados com "OWID" para o formato aceitado de apenas três letras. E depois remover as linhas que pertencem a países que não existem.

In [None]:
dataset['iso_code'] = dataset['iso_code'].replace({'OWID_AFR': 'AFR', 'OWID_ASI': 'ASI', 'OWID_EUR': 'EUR',
                                           'OWID_EUN': 'EUN', 'OWID_INT': 'INT', 'OWID_KOS': 'KOS',
                                           'OWID_NAM': 'NAM', 'OWID_CYN': 'CYN', 'OWID_OCE': 'OCE',
                                           'OWID_SAM': 'SAM', 'OWID_WRL': 'WRL'})

In [None]:
import pycountry_convert as pc
from iso3166 import countries

In [None]:
not_find = []

for country in dataset['iso_code'].unique():
    try:
        #print(f'Working in country {country}')
        countries.get(country)
    except:
        print(f'Can not find country {country}')
        not_find.append(country)

mask = dataset['iso_code'].isin(not_find)
dataset = dataset[~mask]

In [None]:
uniques = set()
def verify_geography(x):
    iso_code = x['iso_code']
    country = countries.get(iso_code)
    country_name = country.name
    try:
        alpha2 = country.alpha2
        continent_code = pc.country_alpha2_to_continent_code(alpha2)
        continent_name = pc.convert_continent_code_to_continent_name(continent_code)
        if x['continent'] == '' or x['continent'] != continent_name:
            #print(f"continent name in database is {x['continent']} and real value is {continent_name}")
            x['continent'] = continent_name
        if x['location'] != country_name:
            #print(f"Location name in database is {x['location']} and real value is {country_name}")
            x['location'] = country_name
        return x
    except:
        uniques.add(f'O que está dando erro é o {iso_code}')
        #traceback.print_exc()

In [None]:
dataset = dataset.apply(lambda x: verify_geography(x), axis=1)

In [None]:
uniques

In [None]:
dataset[dataset['iso_code'].isin(['PCN', 'SXM', 'TLS', 'VAT'])]

Por se tratarem de poucos dados, e a maioria com valores NaN, não há problema em os remover.

Vamos, agora, converter a data para datetime

In [None]:
dataset['date'] = pd.to_datetime(dataset['date'], format='%Y-%m-%d')
dataset.dtypes

In [None]:
dataset.date.describe(datetime_is_numeric=True)

Vamos, finalmente, tratar dos dados nulos.

In [None]:
dataset.isna().sum()

Como existem diversos valores nulos, vamos dropar as linhas que possuem todos os dados nulos.

In [None]:
dataset = dataset.dropna(how='all')

In [None]:
print(dataset.isna().sum())
dataset.shape

Como ainda sobraram muitos dados nulos, vamos agora dropar todas as linhas que possuam 39 ou mais atributos nulos, já que uma linha com essa quantidade de atributos nulos não somente não será útil, como será extremamente, se não impossível, de inferir.

Embora, ainda estejamos analisando essa situação.

In [None]:
dataset = dataset.dropna(thresh=39)

In [None]:
print(dataset.isna().sum())
dataset.shape

Grande parte do _dataset_, como é possível perceber, foi removido. O que significa que esse _dataset_ escolhido é bastante "poluído". Porém, a quantidade restante ainda é o suficiente para diversas análises. E, como o número de dados nulos reduziu significativamente, fica mais fácil análisar e tratar os que restaram.

Percebemos que o valor de dados faltantes nos atributos _weekly_hosp_admissions_ e _weekly_hosp_admissions_per_million_ eram próximos ao tamanho total do _dataset_, por isso, removemos essas colunas.

In [None]:
dataset.drop(['weekly_hosp_admissions', 'weekly_hosp_admissions_per_million'], inplace=True, axis=1)

In [None]:
print(dataset.isna().sum())
dataset.shape

Após analisar os atributos separadamente, decidimos atrubuir os valores faltantes através da média daquele atributo, naquele país e naquele mês. Caso não exista essa média, a mesma é considerada como a média do país. Se ainda assim a média não existir, a mesma é considerada como NaN e removida depois.

In [None]:
from datetime import date, timedelta

def get_start_and_end_month(data):
    nextmonth = 1 if data.month == 12 else data.month + 1
    year = data.year + 1 if nextmonth == 1 else data.year
    end = pd.Timestamp(date(year, nextmonth, 1) - timedelta(days=1))
    start = pd.Timestamp(date(data.year, data.month, 1))
    
    
    return start, end

In [None]:
def median_by_month_and_country_and_atribute(country, attribute, x):
    start, end = get_start_and_end_month(x['date'])
    
    #print(f"Processando iso_code {x['iso_code']} com a data {x['date']} para o atributo {attribute}")
    median = dataset.loc[(dataset['iso_code'] == country) & ((dataset['date'] >= start) | 
                         (dataset['date'] <= end)), attribute].median()
    
    if pd.isna(median) or median <= 0:
        #print('Tentando agora a media do pais')
        median = dataset.loc[dataset['iso_code'] == country, attribute].median()
        
    if pd.isna(median) or median <= 0:
        median = dataset.loc[dataset['continent'] == x['continent'], attribute].median()
        #print('Tentando media do continente')
    
    if pd.isna(median) or median <= 0:
        #print(f'Impossivel inferir a media para o atributo {attribute}, usando NaN no lugar')
        median = np.nan
        
    #print(f'Media calculada {median}')
    return median

In [None]:
dataset['new_cases'].isna().sum()

In [None]:
attributes_to_calc_median = ['hosp_patients', 'hosp_patients_per_million', 'new_cases_per_million', 'new_cases',
                            'new_tests', 'total_tests', 'total_tests_per_thousand', 'new_tests_smoothed',
                            'new_tests_smoothed_per_thousand', 'positive_rate', 'total_vaccinations',
                            'people_vaccinated', 'people_fully_vaccinated', 'new_vaccinations', 
                            'new_vaccinations_smoothed', 'total_vaccinations_per_hundred',
                            'people_vaccinated_per_hundred',  'people_fully_vaccinated_per_hundred',
                            'new_vaccinations_smoothed_per_million', 'aged_70_older', 'gdp_per_capita', 'extreme_poverty',
                            'female_smokers', 'male_smokers', 'handwashing_facilities', 'hospital_beds_per_thousand',
                            'new_tests_per_thousand', 'reproduction_rate']

for attribute in attributes_to_calc_median:
    dataset.loc[dataset[attribute].isna(), attribute] = dataset[dataset[attribute].isna()].apply(lambda x: median_by_month_and_country_and_atribute(x['iso_code'], attribute, x), axis=1)

In [None]:
dataset.dropna(inplace=True)
dataset.reset_index(drop=True, inplace=True)
print(dataset.isna().sum())
dataset.shape

Após todo o processamento dos dados, é possível perceber que a quantidade faltante é, literalmente, nula.

In [None]:
msno.heatmap(dataset)

In [None]:
msno.matrix(dataset, figsize=(20, 10))

Agora, vamos converter os atributos categóricos para valores discretos.

In [None]:
from sklearn.preprocessing import LabelEncoder

categoricals = ['continent', 'location', 'iso_code']
for column in categoricals:
    text_label = LabelEncoder()
    num_label = text_label.fit_transform(dataset[column])
    dataset[column + '_lab'] = num_label
dataset['dayofyear'] = dataset['date'].dt.dayofyear
dataset.drop(columns=['continent', 'location', 'date', 'iso_code'], inplace=True)

A etapa anterior garantiu a existência de dados não nulos, mas vamos dar uma olhada em dados negativos agora.

In [None]:
for column in dataset.select_dtypes(include=[np.number]).columns:
    min_value = np.min(dataset[column])
    if min_value < 0:
        num_rows = len(dataset.loc[dataset[column] < 0])
        print(f"Removing {num_rows} rows in {column} because this lines have a value less than 0.")
        dataset.drop(dataset.loc[dataset[column] < 0].index, inplace=True)
dataset.reset_index(drop=True, inplace=True)

Apenas garantindo que não exista nenhum valor estranho nas colunas numéricas.

In [None]:
for column in dataset.select_dtypes(include=[np.number]).columns:
    min_value = np.min(dataset[column])
    max_value = np.max(dataset[column])
    print(f"Column {column} have a min value of {min_value} and max value of {max_value}")

Aqui, decidi que minha análise irá usar consistir em tentar prever novos casos, o que torna o atributo *new_cases* minha variável-alvo.

Assim sendo, irei remover os atributos que não possuem forte correlação com essa variável-alvo'.

In [None]:
all_columns = dataset.select_dtypes(include=[np.number]).columns.to_list()
target_varible = 'new_cases'
filtered_columns = [x for x in all_columns if x != target_varible]
low_correlation = dict.fromkeys(filtered_columns, 0)

In [None]:
for correlation in filtered_columns:
    corr = dataset[target_varible].corr(dataset[correlation])
    print(f"Correlation between columns {target_varible} and {correlation} is {corr}")
    if corr < 0.3:
        low_correlation[correlation] += 1

In [None]:
low_correlation

Aqui temos um fato curioso, onde os atributos *positive_rate*, *median_age*, *aged_65_older*, *aged_70_older*, *gdp_per_capita*, *female_smokers*, *male_smokers*, *handwashing_facilities*, *life_expectancy* e *human_development_index* não possuem uma forte correlação com as possíveis variáveis-alvo. Portanto, vamos remover esses atributos.

In [None]:
keys = [key for key, value in low_correlation.items() if value == 1]
dataset.drop(keys, inplace=True, axis=1)
dataset.reset_index(drop=True, inplace=True)

In [None]:
plt.figure(figsize=(12, 9))
sns.heatmap(dataset.corr(), annot=False)

In [None]:
dataset.corr()

In [None]:
dataset.dtypes

In [None]:
dataset.reset_index(drop=True, inplace=True)
dataset.shape

Finalmente, vamos salvar o resultado em um arquivo para usar no modelo.

In [None]:
dataset.to_csv('process.csv', index=False)