# Análise de Dados da COVID-19 e Relação com Métricas de Felicidade

------------------------------------------

### 1. Importação de Módulos e Configuração Inicial


# 1.1 Importação de Módulos Necessários


In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

print('Módulos importados com sucesso.')

## 2. Importação e Preparação dos Dados da COVID-19


### 2.1 Importação dos Datasets de Casos e Mortes

importing "Covid19_Confirmed_dataset.csv" from "./Dataset" folder. 


In [None]:
# Importando os datasets de casos confirmados e mortes por COVID-19
corona_dataset = pd.read_csv("./Dataset/Covid19_Confirmed_dataset.csv")
deaths_dataset = pd.read_csv("covid19_deaths_dataset.csv")

#### Vamos verificar o formato do dataframe

### 2.2 Verificação da Estrutura dos Datasets


In [None]:
print("Formato do Dataset de Casos Confirmados:")
print(corona_dataset.shape)
print("Formato do Dataset de Mortes:")
print(deaths_dataset.shape)

### 2.3 Remoção de Colunas Desnecessárias


In [None]:
# Removendo colunas de latitude e longitude, que não são necessárias para a análise
corona_dataset.drop(columns=["Lat", "Long"], inplace=True)
deaths_dataset.drop(columns=["Lat", "Long"], inplace=True)

print("Cabeçalho do Dataset de Casos Confirmados:")
print(corona_dataset.head().to_markdown(numalign="left", stralign="left"))
print("Cabeçalho do Dataset de Mortes:")
print(deaths_dataset.head().to_markdown(numalign="left", stralign="left"))

###  2.4 Agregação dos Dados por País

In [None]:
# Agrupando os dados por país e somando os valores
corona_dataset_aggregated = corona_dataset.groupby("Country/Region").sum()
deaths_dataset_aggregated = deaths_dataset.groupby("Country/Region").sum()

print("Dataset de Casos Confirmados Agregado:")
print(corona_dataset_aggregated.head().to_markdown(numalign="left", stralign="left"))
print("Dataset de Mortes Agregado:")
print(deaths_dataset_aggregated.head().to_markdown(numalign="left", stralign="left"))

### 2.4.1 - Normalização dos Dados

Para tornar as taxas de infecção e mortes comparáveis entre países normalizamos os dados pela população de cada país.


In [None]:
# Importar dataset de população
population_dataset = pd.read_csv("./Dataset/population.csv")

# Normalizar as taxas de infecção e mortes pela população
corona_dataset_aggregated_normalized = corona_dataset_aggregated.div(population_dataset["Population"], axis=0)
deaths_dataset_aggregated_normalized = deaths_dataset_aggregated.div(population_dataset["Population"], axis=0)

### Tarefa 2.5: Visualizando dados relacionados a um país, por exemplo, China
A visualização sempre ajuda a entender melhor nossos dados.

In [None]:
# Visualizando a evolução dos casos de COVID-19 na China
corona_dataset_aggregated.loc['China'].plot()
plt.title("Casos de COVID-19 ao Longo do Tempo na China")
plt.xlabel("Dias")
plt.ylabel("Número de Casos")
plt.show()

### 2.5.1 - Análise de Países Específicos

Comparando a evolução da COVID-19 em países específicos, como Brasil, EUA e Índia.

In [None]:
# Comparação entre Brasil, EUA e Índia
countries_to_compare = ["Brazil", "US", "India"]
for country in countries_to_compare:
    corona_dataset_aggregated.loc[country].plot(label=country)
plt.title("Comparação de Casos de COVID-19 entre Brasil, EUA e Índia")
plt.xlabel("Dias")
plt.ylabel("Número de Casos")
plt.legend()
plt.show()

### Task 3: Cálculo de Métricas Relevantes

precisamos encontrar uma boa medida representada como um número, descrevendo a disseminação do vírus em um país. 

### task 3.1:Cálculo da Taxa de Infecção Diária (Primeira Derivada)

In [None]:
# Calculando a taxa de infecção diária (diferença entre os dias)
corona_dataset_aggregated_diff = corona_dataset_aggregated.diff(axis=1)
deaths_dataset_aggregated_diff = deaths_dataset.diff(axis=1)

print("Dataset de Casos Confirmados com Diferença Diária:")
print(corona_dataset_aggregated_diff.head().to_markdown(numalign="left", stralign="left"))
print("Dataset de Mortes com Diferença Diária:")
print(deaths_dataset_aggregated_diff.head().to_markdown(numalign="left", stralign="left"))

### task 3.2: Identificação da Taxa Máxima de Infecção e Mortes por País

In [None]:
# Calculando a taxa de infecção diária (diferença entre os dias)
corona_dataset_aggregated_diff = corona_dataset_aggregated.diff(axis=1)
deaths_dataset_aggregated_diff = deaths_dataset.diff(axis=1)

print("Dataset de Casos Confirmados com Diferença Diária:")
print(corona_dataset_aggregated_diff.head().to_markdown(numalign="left", stralign="left"))
print("Dataset de Mortes com Diferença Diária:")
print(deaths_dataset_aggregated_diff.head().to_markdown(numalign="left", stralign="left"))

### Task 3.3: Criação de DataFrames com as Taxas Máximas

In [None]:
# Criando DataFrames separados para as taxas máximas de infecção e mortes
max_infection_rates_df = pd.DataFrame(max_infection_rates, columns=["Max Infection Rate"])
max_death_rates_df = pd.DataFrame(max_death_rates, columns=["Max Death Rate"])

print("DataFrame de Taxas Máximas de Infecção:")
print(max_infection_rates_df.head().to_markdown(numalign="left", stralign="left"))
print("DataFrame de Taxas Máximas de Mortes:")
print(max_death_rates_df.head().to_markdown(numalign="left", stralign="left"))

### Task 3.4: create a new dataframe with only needed column 

In [None]:
# Criando DataFrames separados para as taxas máximas de infecção e mortes
max_infection_rates_df = pd.DataFrame(max_infection_rates, columns=["Max Infection Rate"])
max_death_rates_df = pd.DataFrame(max_death_rates, columns=["Max Death Rate"])

print("DataFrame de Taxas Máximas de Infecção:")
print(max_infection_rates_df.head().to_markdown(numalign="left", stralign="left"))
print("DataFrame de Taxas Máximas de Mortes:")
print(max_death_rates_df.head().to_markdown(numalign="left", stralign="left"))

### 3.5.1 - Análise de Mortalidade

Calcule a taxa de mortalidade (mortes / casos confirmados) para cada país e adicione essa métrica ao dataset combinado.


In [None]:


# Calcular taxa de mortalidade
mortality_rate = deaths_dataset_aggregated / corona_dataset_aggregated
mortality_rate.replace([np.inf, -np.inf], np.nan, inplace=True)  # Tratar divisões por zero

# Adicionar ao dataset combinado

combined_infection_dataset["Mortality Rate"] = mortality_rate.max(axis=1)


### 3.5.2 - Análise de Outliers
Identifique outliers nas taxas de infecção e mortes usando boxplots.


In [None]:
# Boxplot para taxas de infecção
plt.figure(figsize=(10, 6))
sns.boxplot(x=max_infection_rates)
plt.title("Boxplot das Taxas Máximas de Infecção")
plt.xlabel("Taxa de Infecção")
plt.show()

# Boxplot para taxas de mortalidade
plt.figure(figsize=(10, 6))
sns.boxplot(x=combined_infection_dataset["Mortality Rate"].dropna())
plt.title("Boxplot das Taxas de Mortalidade")
plt.xlabel("Taxa de Mortalidade")
plt.show()


### 3.5.3 - Análise Temporal
Analise a evolução temporal das taxas de infecção e mortes em um país específico, como o Brasil.



In [None]:
# Evolução temporal no Brasil
corona_dataset_aggregated.loc["Brazil"].diff().plot()
plt.title("Evolução Diária de Casos de COVID-19 no Brasil")
plt.xlabel("Dias")
plt.ylabel("Novos Casos")
plt.show()

### Task 4: Importação e Preparação do Dataset de Felicidade Global
- Importando o dataset WorldHappinessReport.csv  
- Selecionando as colunas necessárias para nossa análise  
- Unindo os datasets  
- Calculando as correlações como resultado da nossa análise  

### Task 4.1 : Importação do Dataset de Felicidade

In [None]:
# Importando o dataset de felicidade global
happiness_report = pd.read_csv("./Dataset/worldwide_happiness_report.csv")

print("Cabeçalho do Dataset de Felicidade:")
print(happiness_report.head().to_markdown(numalign="left", stralign="left"))

### Task 4.2: Limpeza e Seleção de Colunas Relevantes

In [None]:
# Mantendo apenas as colunas relevantes para a análise
happiness_report_cleaned = happiness_report[["Country or region", "Score", "GDP per capita",
                                             "Social support", "Healthy life expectancy",
                                             "Freedom to make life choices"]]

print("Dataset de Felicidade Limpo:")
print(happiness_report_cleaned.head().to_markdown(numalign="left", stralign="left"))

### Task 4.3: Ajuste dos Índices do DataFrame

In [None]:
# Definindo a coluna "Country or region" como índice
happiness_report_cleaned.set_index("Country or region", inplace=True)

print("Dataset de Felicidade com Índice Ajustado:")
print(happiness_report_cleaned.head().to_markdown(numalign="left", stralign="left"))

### Task 4.4: Junção dos Datasets de COVID-19 e Felicidade

In [None]:
# Combinando os datasets de COVID-19 e felicidade
combined_infection_dataset = max_infection_rates_df.join(happiness_report_cleaned, how="inner")
combined_death_dataset = max_death_rates_df.join(happiness_report_cleaned, how="inner")

print("Dataset Combinado (Infecção e Felicidade):")
print(combined_infection_dataset.head().to_markdown(numalign="left", stralign="left"))
print("Dataset Combinado (Mortes e Felicidade):")
print(combined_death_dataset.head().to_markdown(numalign="left", stralign="left"))

### Task 4.5: Cálculo da Matriz de Correlação

In [None]:
# Calculando a matriz de correlação entre as variáveis
correlation_infection_matrix = combined_infection_dataset.corr()
correlation_death_matrix = combined_death_dataset.corr()

print("Matriz de Correlação (Infecção):")
print(correlation_infection_matrix.to_markdown(numalign="left", stralign="left"))
print("Matriz de Correlação (Mortes):")
print(correlation_death_matrix.to_markdown(numalign="left", stralign="left"))

### 4.6.1 - Heatmap de Correlação
Crie um heatmap para visualizar a matriz de correlação de forma mais intuitiva.


In [None]:
# Heatmap da matriz de correlação
plt.figure(figsize=(10, 6))
sns.heatmap(correlation_infection_matrix, annot=True, cmap="coolwarm", fmt=".2f")
plt.title("Heatmap de Correlação (Infecção)")
plt.show()


### 4.6.2 - Dados de Vacinação (Novo Dataset)
Inclua dados de vacinação para enriquecer a análise.


In [None]:
# Importar dataset de vacinação
vaccination_dataset = pd.read_csv("./Dataset/vaccination.csv")

# Juntar com o dataset combinado
combined_infection_dataset = combined_infection_dataset.join(vaccination_dataset, how="left")
combined_death_dataset = combined_death_dataset.join(vaccination_dataset, how="left")


### 4.6.3 - Dados Socioeconômicos (Novo Dataset)
Inclua dados socioeconômicos, como desigualdade de renda e acesso à saúde.


In [None]:

# Importar dataset socioeconômico
socioeconomic_dataset = pd.read_csv("./Dataset/socioeconomic.csv")

# Juntar com o dataset combinado
combined_infection_dataset = combined_infection_dataset.join(socioeconomic_dataset, how="left")
combined_death_dataset = combined_death_dataset.join(socioeconomic_dataset, how="left")

### Task 5: Visualização dos Resultados
nossa análise não está concluída, a menos que visualizemos os resultados em termos de figuras e gráficos, para que todos possam entender o que obtivemos com nossa análise

### Task 5.1: Relação entre PIB per Capita e Taxa Máxima de Infecção

In [None]:
sns.scatterplot(x=combined_infection_dataset["GDP per capita"],
                y=combined_infection_dataset["Max Infection Rate"])
plt.title("PIB per Capita vs Taxa Máxima de Infecção")
plt.xlabel("PIB per Capita")
plt.ylabel("Taxa Máxima de Infecção")
plt.show()

### Task 5.2: Relação entre Suporte Social e Taxa Máxima de Infecção

In [None]:
sns.scatterplot(x=combined_infection_dataset["Social support"],
                y=combined_infection_dataset["Max Infection Rate"])
plt.title("Suporte Social vs Taxa Máxima de Infecção")
plt.xlabel("Suporte Social")
plt.ylabel("Taxa Máxima de Infecção")
plt.show()

### Task 5.3: Relação entre Expectativa de Vida Saudável e Taxa Máxima de Infecção

In [None]:
sns.scatterplot(x=combined_infection_dataset["Healthy life expectancy"],
                y=combined_infection_dataset["Max Infection Rate"])
plt.title("Expectativa de Vida Saudável vs Taxa Máxima de Infecção")
plt.xlabel("Expectativa de Vida Saudável")
plt.ylabel("Taxa Máxima de Infecção")
plt.show()

### Task 5.4: Relação entre Liberdade de Escolha e Taxa Máxima de Infecção

In [None]:
sns.scatterplot(x=combined_infection_dataset["Freedom to make life choices"],
                y=combined_infection_dataset["Max Infection Rate"])
plt.title("Liberdade de Escolha vs Taxa Máxima de Infecção")
plt.xlabel("Liberdade de Escolha")
plt.ylabel("Taxa Máxima de Infecção")
plt.show()

## 6. Conclusão e Observações Finais

### 6.1 Resumo do Notebook
Este notebook fornece um guia passo a passo para analisar os dados da COVID-19 e explorar sua relação com as métricas globais de felicidade. Através da análise, foi possível:

1. **Importar e preparar os dados** de casos confirmados e mortes por COVID-19.
2. **Calcular métricas relevantes**, como a taxa máxima de infecção e mortes por país.
3. **Integrar os dados da COVID-19** com o relatório de felicidade global.
4. **Visualizar correlações** entre variáveis como PIB per capita, suporte social, expectativa de vida saudável e liberdade de escolha.

### 6.2 Insights das Visualizações
As visualizações ajudaram a entender melhor as correlações entre as variáveis. Por exemplo:
- Países com maior **PIB per capita** tendem a ter taxas de infecção mais altas, possivelmente devido a maior capacidade de testagem e notificação de casos.
- **Suporte social** e **expectativa de vida saudável** mostraram relações interessantes com as taxas de infecção, sugerindo que fatores sociais e de saúde pública podem influenciar a propagação do vírus.

### 6.3 Matriz de Correlação
A matriz de correlação final resume as relações entre todas as variáveis no dataset combinado. Ela é uma ferramenta valiosa para identificar padrões e insights que podem orientar políticas públicas e estratégias de saúde.

### 6.4 Próximos Passos
Para expandir essa análise, seria interessante:
- Incluir dados de vacinação para avaliar o impacto das campanhas de imunização.
- Explorar dados socioeconômicos adicionais, como desigualdade de renda e acesso à saúde.
- Aplicar modelos de machine learning para prever taxas de infecção com base nas métricas de felicidade.

