# 1. Definição do Problema e Objetivo

## Pergunta de pesquisa:
- Existe uma relação entre o índice de felicidade e o PIB per capita? A relação é linear?

## Objetivo:
- Entender se o PIB per capita é um fator que influencia o índice de felicidade.
- Examinar a força e o tipo de relação (positiva, negativa, inexistente).

</br>

___

</br>


# 2. Coleta de Dados

#### Base de Dados: **World Happiness Reports 2013-2023**

#### Fonte: https://www.kaggle.com/datasets/joebeachcapital/world-happiness-report-2013-2023

#### Ferramentas: Jupyter Notebook, Python, Pandas.

</br>

___

</br>

In [1]:
# Importa a biblioteca Pandas para análise de dados
import pandas as pd

# Importa e usa o pacote 'os' para mudar o diretório base do Python
import os

In [2]:
# O diretório no qual o Python está trabalhando:
print('Diretório inicial: {}'.format(os.getcwd()))

# Muda para o diretório contendo a base de dados
os.chdir(r'C:\Users\vinic\Meu Drive\Trabalho de Computação - Grupo I\Análise de Dados')
print('Diretório final: {}'.format(os.getcwd()))

Diretório inicial: C:\Users\10784421\Downloads\Trabalho de Computação - Grupo I\Análise de Dados


FileNotFoundError: [WinError 3] O sistema não pode encontrar o caminho especificado: 'C:\\Users\\vinic\\Meu Drive\\Trabalho de Computação - Grupo I\\Análise de Dados'

In [None]:
# Lista os arquivos no diretório
os.listdir()

In [None]:
# Lendo o arquivo CSV da base de dados e armazenando em um DataFrame
df_pib_felicidade_2023 = pd.read_csv('World Happiness Report 2023.csv', sep=',', encoding='utf8')

# Coletando apenas as colunas 'Ladder score (Índice de Felicidade)' e 'Logged GDP per capita (PIB per capita)'
df_pib_felicidade_2023 = df_pib_felicidade_2023[['Country name', 'Logged GDP per capita', 'Ladder score']]

In [None]:
# Retorna as informações técnicas sobre o DataFrame
df_pib_felicidade_2023.info(memory_usage='deep')

In [None]:
# Ordena (decrescente) pelo Índice de Felicidade e armazena os dados dos 10 maiores em um novo DataFrame
df_pib_felicidade_2023_grupo_1 = df_pib_felicidade_2023.sort_values(by='Ladder score', ascending=False).head(10)

# Exibe o DataFrame
df_pib_felicidade_2023_grupo_1

In [None]:
# Calcula a diferença absoluta entre o Ladder score e o ponto médio entre os extremos do intervalo do índice de felicidade [1.859, 7.804]: 4.832
df_pib_felicidade_2023['diff'] = abs(df_pib_felicidade_2023['Ladder score'] - 4.832)

# Ordena os países pela diferença e seleciona os 10 mais próximos
df_pib_felicidade_2023_grupo_2 = df_pib_felicidade_2023.sort_values(by='diff').head(10)

# Ordena de forma decrescente pelo Ladder score
df_pib_felicidade_2023_grupo_2 = df_pib_felicidade_2023_grupo_2.sort_values(by='Ladder score', ascending=False)

# Remove a coluna de diferença
df_pib_felicidade_2023_grupo_2 = df_pib_felicidade_2023_grupo_2.drop(columns=['diff'])

# Exibe o DataFrame
df_pib_felicidade_2023_grupo_2

In [None]:
# Remove a coluna de diferença
df_pib_felicidade_2023 = df_pib_felicidade_2023.drop(columns=['diff'])

# Ordena (decrescente) pelo Índice de Felicidade e armazena os dados dos 10 menores em um novo DataFrame
df_pib_felicidade_2023_grupo_3 = df_pib_felicidade_2023.sort_values(by='Ladder score', ascending=False).tail(10)

# Exibe o DataFrame
df_pib_felicidade_2023_grupo_3


# 3. Limpeza e Preparação dos Dados
___

</br>

In [None]:
# Verifica se há valores ausentes no DataFrame
valores_ausentes = df_pib_felicidade_2023.isnull().sum()
print(f"Número de valores ausentes por coluna: \n{valores_ausentes}")

# Verifica se há países duplicados no DataFrame
duplicatas = df_pib_felicidade_2023[df_pib_felicidade_2023.duplicated(subset='Country name', keep=False)]

if duplicatas.empty:
    print("\nNão há países duplicados no DataFrame.")
else:
    print(f"\nPaíses duplicados: {duplicatas}")

In [None]:
# Obtém os nomes dos países de cada dataframe dos grupos 1, 2 e 3
paises_grupo_1 = set(df_pib_felicidade_2023_grupo_1['Country name'])
paises_grupo_2 = set(df_pib_felicidade_2023_grupo_2['Country name'])
paises_grupo_3 = set(df_pib_felicidade_2023_grupo_3['Country name'])

# Encontra a interseção dos três conjuntos
paises_comuns = paises_grupo_1 & paises_grupo_2 & paises_grupo_3

# Exibe os países comuns (se houver)
if paises_comuns:
	print(f"Países com nomes iguais entre os três dataframes: {paises_comuns}")
else:
	print("Não há países com nomes iguais entre os três dataframes")

In [None]:
# Junta os três dataframes em um novo dataframe com os 30 países selecionados
df_pib_felicidade_2023_30_paises = pd.concat([df_pib_felicidade_2023_grupo_1, df_pib_felicidade_2023_grupo_2, df_pib_felicidade_2023_grupo_3], ignore_index=True).sort_values(by='Ladder score', ascending=False)

# Exibe o novo dataframe combinado
df_pib_felicidade_2023_30_paises

# 4. Análise Exploratória dos Dados

___

</br>

## Estatísticas Descritivas - Grupo 1

In [None]:
# Descreve e armazena uma tabela de estatísticas descritivas das colunas numéricas do DataFrame
estatisticas_grupo_1 = df_pib_felicidade_2023_grupo_1.describe()

# Seleciona apenas as colunas numéricas do DataFrame
df_pib_felicidade_2023_grupo_1_numerico = df_pib_felicidade_2023_grupo_1.select_dtypes(include=['float64'])

# Calcula o desvio padrão ao quadrado (variância) dos dados e adiciona ao DataFrame de descrição
desvio_padrao_ao_quadrado_grupo_1 = df_pib_felicidade_2023_grupo_1_numerico.std() ** 2
estatisticas_grupo_1.loc['var'] = desvio_padrao_ao_quadrado_grupo_1

# Reordena as linhas para colocar a variância antes do desvio padrão e após a média
estatisticas_grupo_1 = estatisticas_grupo_1.loc[['count', 'mean', 'var', 'std', 'min', '25%', '50%', '75%', 'max'] + [col for col in estatisticas_grupo_1.index if col not in ['count', 'mean', 'var', 'std', 'min', '25%', '50%', '75%', 'max']]]

# Exibe a tabela de estatísticas descritivas
estatisticas_grupo_1

## Estatísticas Descritivas - Grupo 2

In [None]:
# Descreve e armazena uma tabela de estatísticas descritivas das colunas numéricas do DataFrame
estatisticas_grupo_2 = df_pib_felicidade_2023_grupo_2.describe()

# Seleciona apenas as colunas numéricas do DataFrame 
df_pib_felicidade_2023_grupo_2_numerico = df_pib_felicidade_2023_grupo_2.select_dtypes(include=['float64'])

# Calcula o desvio padrão ao quadrado (variância) dos dados e adiciona ao DataFrame de descrição
desvio_padrao_ao_quadrado_grupo_2 = df_pib_felicidade_2023_grupo_2_numerico.std() ** 2
estatisticas_grupo_2.loc['var'] = desvio_padrao_ao_quadrado_grupo_2

# Reordena as linhas para colocar a variância antes do desvio padrão e após a média
estatisticas_grupo_2 = estatisticas_grupo_2.loc[['count', 'mean', 'var', 'std', 'min', '25%', '50%', '75%', 'max'] + [col for col in estatisticas_grupo_2.index if col not in ['count', 'mean', 'var', 'std', 'min', '25%', '50%', '75%', 'max']]]

# Exibe a tabela de estatísticas descritivas
estatisticas_grupo_2

## Estatísticas Descritivas - Grupo 3

In [None]:
# Descreve e armazena uma tabela de estatísticas descritivas das colunas numéricas do DataFrame
estatisticas_grupo_3 = df_pib_felicidade_2023_grupo_3.describe()

# Seleciona apenas as colunas numéricas do DataFrame 
df_pib_felicidade_2023_grupo_3_numerico = df_pib_felicidade_2023_grupo_3.select_dtypes(include=['float64'])

# Calcula o desvio padrão ao quadrado (variância) dos dados e adiciona ao DataFrame de descrição
desvio_padrao_ao_quadrado_grupo_3 = df_pib_felicidade_2023_grupo_3_numerico.std() ** 2
estatisticas_grupo_3.loc['var'] = desvio_padrao_ao_quadrado_grupo_3

# Reordena as linhas para colocar a variância antes do desvio padrão e após a média
estatisticas_grupo_3 = estatisticas_grupo_3.loc[['count', 'mean', 'var', 'std', 'min', '25%', '50%', '75%', 'max'] + [col for col in estatisticas_grupo_3.index if col not in ['count', 'mean', 'var', 'std', 'min', '25%', '50%', '75%', 'max']]]

# Exibe a tabela de estatísticas descritivas
estatisticas_grupo_3

## Estatísticas Descritivas - 30 Países Selecionados

In [None]:
# Descreve e armazena uma tabela de estatísticas descritivas das colunas numéricas do DataFrame
estatisticas_30_paises = df_pib_felicidade_2023_30_paises.describe()

# Seleciona apenas as colunas numéricas do DataFrame 
df_pib_felicidade_2023_30_paises_numerico = df_pib_felicidade_2023_30_paises.select_dtypes(include=['float64'])

# Calcula o desvio padrão ao quadrado (variância) dos dados e adiciona ao DataFrame de descrição
desvio_padrao_ao_quadrado_30_paises = df_pib_felicidade_2023_30_paises_numerico.std() ** 2
estatisticas_30_paises.loc['var'] = desvio_padrao_ao_quadrado_30_paises

# Reordena as linhas para colocar a variância antes do desvio padrão e após a média
estatisticas_30_paises = estatisticas_30_paises.loc[['count', 'mean', 'var', 'std', 'min', '25%', '50%', '75%', 'max'] + [col for col in estatisticas_30_paises.index if col not in ['count', 'mean', 'var', 'std', 'min', '25%', '50%', '75%', 'max']]]

# Exibe a tabela de estatísticas descritivas
estatisticas_30_paises

# Gráficos de Dispersão - Grupo 1

In [None]:
import matplotlib.pyplot as plt

# Cria o gráfico de dispersão
plt.figure(figsize=(10, 6))
plt.scatter(df_pib_felicidade_2023_grupo_1['Logged GDP per capita'], df_pib_felicidade_2023_grupo_1['Ladder score'], color='blue')

# Adiciona título e rótulos aos eixos
plt.title('Relação entre o Índice de Felicidade e o PIB per Capita (Grupo 1)')
plt.xlabel('PIB per Capita (Log)')
plt.ylabel('Índice de Felicidade')

# Adiciona uma grade ao gráfico
plt.grid(True)

# Exibe o gráfico
plt.show()

## Boxplots - Distribuições em categorias de PIB (baixo, médio, alto) - Grupo 1

In [None]:
# Importa a biblioteca Seaborn para visualização de dados
import seaborn as sns

# Categoriza os países do grupo 1 em três categorias de PIB (baixo, médio, alto)
quartis = df_pib_felicidade_2023_grupo_1['Logged GDP per capita'].quantile([0.33, 0.66])
df_pib_felicidade_2023_grupo_1['PIB Categoria'] = pd.cut(df_pib_felicidade_2023_grupo_1['Logged GDP per capita'], bins=[-float('inf'), quartis[0.33], quartis[0.66], float('inf')], labels=['Baixo', 'Médio', 'Alto'])

# Cria os boxplots para comparar as distribuições do Índice de Felicidade em categorias de PIB
plt.figure(figsize=(10, 6))
sns.boxplot(x='PIB Categoria', y='Ladder score', data=df_pib_felicidade_2023_grupo_1)

# Adiciona título e rótulos aos eixos
plt.title('Distribuição do Índice de Felicidade por Categoria de PIB (Grupo 1)')
plt.xlabel('Categoria de PIB')
plt.ylabel('Índice de Felicidade')

# Exibe o gráfico
plt.show()

# Gráficos de Dispersão - Grupo 2

In [None]:
# Cria o gráfico de dispersão
plt.figure(figsize=(10, 6))
plt.scatter(df_pib_felicidade_2023_grupo_2['Logged GDP per capita'], df_pib_felicidade_2023_grupo_2['Ladder score'], color='green')

# Adiciona título e rótulos aos eixos
plt.title('Relação entre o Índice de Felicidade e o PIB per Capita (Grupo 2)')
plt.xlabel('PIB per Capita (Log)')
plt.ylabel('Índice de Felicidade')

# Adiciona uma grade ao gráfico
plt.grid(True)

# Exibe o gráfico
plt.show()

## Boxplots - Distribuições em categorias de PIB (baixo, médio, alto) - Grupo 2

In [None]:
# Categoriza os países do grupo 2 em três categorias de PIB (baixo, médio, alto)
quartis = df_pib_felicidade_2023_grupo_2['Logged GDP per capita'].quantile([0.33, 0.66])
df_pib_felicidade_2023_grupo_2['PIB Categoria'] = pd.cut(df_pib_felicidade_2023_grupo_2['Logged GDP per capita'], bins=[-float('inf'), quartis[0.33], quartis[0.66], float('inf')], labels=['Baixo', 'Médio', 'Alto'])

# Cria os boxplots para comparar as distribuições do Índice de Felicidade em categorias de PIB
plt.figure(figsize=(10, 6))
sns.boxplot(x='PIB Categoria', y='Ladder score', data=df_pib_felicidade_2023_grupo_2)

# Adiciona título e rótulos aos eixos
plt.title('Distribuição do Índice de Felicidade por Categoria de PIB (Grupo 2)')
plt.xlabel('Categoria de PIB')
plt.ylabel('Índice de Felicidade')

# Exibe o gráfico
plt.show()

# Gráficos de Dispersão - Grupo 3

In [None]:
# Cria o gráfico de dispersão
plt.figure(figsize=(10, 6))
plt.scatter(df_pib_felicidade_2023_grupo_3['Logged GDP per capita'], df_pib_felicidade_2023_grupo_3['Ladder score'], color='red')

# Adiciona título e rótulos aos eixos
plt.title('Relação entre o Índice de Felicidade e o PIB per Capita (Grupo 3)')
plt.xlabel('PIB per Capita (Log)')
plt.ylabel('Índice de Felicidade')

# Adiciona uma grade ao gráfico
plt.grid(True)

# Exibe o gráfico
plt.show()

## Boxplots - Distribuições em categorias de PIB (baixo, médio, alto) - Grupo 3

In [None]:
# Categoriza os países do grupo 3 em três categorias de PIB (baixo, médio, alto)
quartis = df_pib_felicidade_2023_grupo_3['Logged GDP per capita'].quantile([0.33, 0.66])
df_pib_felicidade_2023_grupo_3['PIB Categoria'] = pd.cut(df_pib_felicidade_2023_grupo_3['Logged GDP per capita'], bins=[-float('inf'), quartis[0.33], quartis[0.66], float('inf')], labels=['Baixo', 'Médio', 'Alto'])

# Cria os boxplots para comparar as distribuições do Índice de Felicidade em categorias de PIB
plt.figure(figsize=(10, 6))
sns.boxplot(x='PIB Categoria', y='Ladder score', data=df_pib_felicidade_2023_grupo_3)

# Adiciona título e rótulos aos eixos
plt.title('Distribuição do Índice de Felicidade por Categoria de PIB (Grupo 3)')
plt.xlabel('Categoria de PIB')
plt.ylabel('Índice de Felicidade')

# Exibe o gráfico
plt.show()

## Gráficos de Dispersão - 30 Países Selecionados

In [None]:
# Cria o gráfico de dispersão para os 30 países selecionados
plt.figure(figsize=(10, 6))
plt.scatter(df_pib_felicidade_2023_30_paises['Logged GDP per capita'], df_pib_felicidade_2023_30_paises['Ladder score'], color='purple')

# Adiciona título e rótulos aos eixos
plt.title('Relação entre o Índice de Felicidade e o PIB per Capita (30 Países Selecionados)')
plt.xlabel('PIB per Capita (Log)')
plt.ylabel('Índice de Felicidade')

# Adiciona uma grade ao gráfico
plt.grid(True)

# Exibe o gráfico
plt.show()

## Boxplots - Distribuições em categorias de PIB (baixo, médio, alto) - 30 Países Selecionados

In [None]:
# Categoriza os países dos 30 países selecionados em três categorias de PIB (baixo, médio, alto)
quartis = df_pib_felicidade_2023_30_paises['Logged GDP per capita'].quantile([0.33, 0.66])
df_pib_felicidade_2023_30_paises['PIB Categoria'] = pd.cut(df_pib_felicidade_2023_30_paises['Logged GDP per capita'], bins=[-float('inf'), quartis[0.33], quartis[0.66], float('inf')], labels=['Baixo', 'Médio', 'Alto'])

# Cria os boxplots para comparar as distribuições do Índice de Felicidade em categorias de PIB
plt.figure(figsize=(10, 6))
sns.boxplot(x='PIB Categoria', y='Ladder score', data=df_pib_felicidade_2023_30_paises)

# Adiciona título e rótulos aos eixos
plt.title('Distribuição do Índice de Felicidade por Categoria de PIB (30 Países Selecionados)')
plt.xlabel('Categoria de PIB')
plt.ylabel('Índice de Felicidade')

# Exibe o gráfico
plt.show()

# 5. Modelagem Estatística

</br>

___

</br>

## Coeficiente de Correlação de Pearson - Grupo 1

In [None]:
# Calcula o coeficiente de correlação de Pearson para o grupo 1 usando corr()
correlacao_grupo_1_corr = df_pib_felicidade_2023_grupo_1[['Logged GDP per capita', 'Ladder score']].corr().iloc[0, 1]

# Exibe o coeficiente de correlação
print(f'Coeficiente de Correlação de Pearson para o grupo 1 (usando corr()): {correlacao_grupo_1_corr}')


## Coeficiente de Correlação de Pearson - Grupo 2

In [None]:
# Calcula o coeficiente de correlação de Pearson para o grupo 2 usando corr()
correlacao_grupo_2_corr = df_pib_felicidade_2023_grupo_2[['Logged GDP per capita', 'Ladder score']].corr().iloc[0, 1]

# Exibe o coeficiente de correlação
print(f'Coeficiente de Correlação de Pearson para o grupo 2: {correlacao_grupo_2_corr}')

## Coeficiente de Correlação de Pearson - Grupo 3

In [None]:
# Calcula o coeficiente de correlação de Pearson para o grupo 3 usando corr()
correlacao_grupo_3_corr = df_pib_felicidade_2023_grupo_3[['Logged GDP per capita', 'Ladder score']].corr().iloc[0, 1]

# Exibe o coeficiente de correlação
print(f'Coeficiente de Correlação de Pearson para o grupo 3: {correlacao_grupo_3_corr}')

## Coeficiente de Correlação de Pearson - 30 Países Selecionados

In [None]:
# Calcula o coeficiente de correlação de Pearson para os 30 países selecionados usando corr()
correlacao_30_paises_corr = df_pib_felicidade_2023_30_paises[['Logged GDP per capita', 'Ladder score']].corr().iloc[0, 1]

# Exibe o coeficiente de correlação
print(f'Coeficiente de Correlação de Pearson para os 30 países selecionados: {correlacao_30_paises_corr}')

## Regressão Linear - Grupo 1

In [None]:
# Importa a classe LinearRegression do sklearn
from sklearn.linear_model import LinearRegression

# Define as variáveis preditoras (X) e de resposta (y) para o grupo 1
X_grupo_1 = df_pib_felicidade_2023_grupo_1[['Logged GDP per capita']].values.reshape(-1, 1)
y_grupo_1 = df_pib_felicidade_2023_grupo_1['Ladder score'].values

# Cria e ajusta o modelo de regressão linear para o grupo 1
model_grupo_1 = LinearRegression()
model_grupo_1.fit(X_grupo_1, y_grupo_1)

# Obtém os coeficientes para o grupo 1
beta_0_grupo_1 = model_grupo_1.intercept_
beta_1_grupo_1 = model_grupo_1.coef_[0]

# Exibe os coeficientes
print(f'Intercepto (β0) para o grupo 1: {beta_0_grupo_1}')
print(f'Coeficiente (β1) para o grupo 1: {beta_1_grupo_1}')

# Prediz a felicidade com base no modelo para o grupo 1
y_pred_grupo_1 = model_grupo_1.predict(X_grupo_1)

# Plota a linha de regressão para o grupo 1
plt.figure(figsize=(10, 6))
plt.scatter(X_grupo_1, y_grupo_1, color='blue', label='Dados Reais')
plt.plot(X_grupo_1, y_pred_grupo_1, color='orange', label='Linha de Regressão')
plt.title('Regressão Linear: Índice de Felicidade vs PIB per Capita (Grupo 1)')
plt.xlabel('PIB per Capita (Log)')
plt.ylabel('Índice de Felicidade')
plt.legend()
plt.grid(True)
plt.show()


## R²: Quanto do índice de felicidade é explicado pelo PIB - Grupo 1

In [None]:
# Calcula o coeficiente de determinação R^2 para o grupo 1
r2_grupo_1 = model_grupo_1.score(X_grupo_1, y_grupo_1)
print(f'Coeficiente de Determinação (R^2) para o grupo 1: {r2_grupo_1}')

## Regressão Linear - Grupo 2

In [None]:
# Define as variáveis preditoras (X) e de resposta (y) para o grupo 2
X_grupo_2 = df_pib_felicidade_2023_grupo_2[['Logged GDP per capita']].values.reshape(-1, 1)
y_grupo_2 = df_pib_felicidade_2023_grupo_2['Ladder score'].values

# Cria e ajusta o modelo de regressão linear para o grupo 2
model_grupo_2 = LinearRegression()
model_grupo_2.fit(X_grupo_2, y_grupo_2)

# Obtém os coeficientes para o grupo 2
beta_0_grupo_2 = model_grupo_2.intercept_
beta_1_grupo_2 = model_grupo_2.coef_[0]

# Exibe os coeficientes
print(f'Intercepto (β0) para o grupo 2: {beta_0_grupo_2}')
print(f'Coeficiente (β1) para o grupo 2: {beta_1_grupo_2}')

# Prediz a felicidade com base no modelo para o grupo 2
y_pred_grupo_2 = model_grupo_2.predict(X_grupo_2)

# Plota a linha de regressão para o grupo 2
plt.figure(figsize=(10, 6))
plt.scatter(X_grupo_2, y_grupo_2, color='green', label='Dados Reais')
plt.plot(X_grupo_2, y_pred_grupo_2, color='orange', label='Linha de Regressão')
plt.title('Regressão Linear: Índice de Felicidade vs PIB per Capita (Grupo 2)')
plt.xlabel('PIB per Capita (Log)')
plt.ylabel('Índice de Felicidade')
plt.legend()
plt.grid(True)
plt.show()

## R²: Quanto do índice de felicidade é explicado pelo PIB - Grupo 2

In [None]:
# Calcula o coeficiente de determinação R^2 para o grupo 2
r2_grupo_2 = model_grupo_2.score(X_grupo_2, y_grupo_2)
print(f'Coeficiente de Determinação (R^2) para o grupo 2: {r2_grupo_2}')

## Regressão Linear - Grupo 3

In [None]:
# Define as variáveis preditoras (X) e de resposta (y) para o grupo 3
X_grupo_3 = df_pib_felicidade_2023_grupo_3[['Logged GDP per capita']].values.reshape(-1, 1)
y_grupo_3 = df_pib_felicidade_2023_grupo_3['Ladder score'].values

# Cria e ajusta o modelo de regressão linear para o grupo 3
model_grupo_3 = LinearRegression()
model_grupo_3.fit(X_grupo_3, y_grupo_3)

# Obtém os coeficientes para o grupo 3
beta_0_grupo_3 = model_grupo_3.intercept_
beta_1_grupo_3 = model_grupo_3.coef_[0]

# Exibe os coeficientes
print(f'Intercepto (β0) para o grupo 3: {beta_0_grupo_3}')
print(f'Coeficiente (β1) para o grupo 3: {beta_1_grupo_3}')

# Prediz a felicidade com base no modelo para o grupo 3
y_pred_grupo_3 = model_grupo_3.predict(X_grupo_3)

# Plota a linha de regressão para o grupo 3
plt.figure(figsize=(10, 6))
plt.scatter(X_grupo_3, y_grupo_3, color='red', label='Dados Reais')
plt.plot(X_grupo_3, y_pred_grupo_3, color='orange', label='Linha de Regressão')
plt.title('Regressão Linear: Índice de Felicidade vs PIB per Capita (Grupo 3)')
plt.xlabel('PIB per Capita (Log)')
plt.ylabel('Índice de Felicidade')
plt.legend()
plt.grid(True)
plt.show()

## R²: Quanto do índice de felicidade é explicado pelo PIB - Grupo 3

In [None]:
# Calcula o coeficiente de determinação R^2 para o grupo 3
r2_grupo_3 = model_grupo_3.score(X_grupo_3, y_grupo_3)
print(f'Coeficiente de Determinação (R^2) para o grupo 3: {r2_grupo_3}')

## Regressão Linear - 30 Países Selecionados

In [None]:
# Define as variáveis preditoras (X) e de resposta (y) para os 30 países selecionados
X_30_paises = df_pib_felicidade_2023_30_paises[['Logged GDP per capita']].values.reshape(-1, 1)
y_30_paises = df_pib_felicidade_2023_30_paises['Ladder score'].values

# Cria e ajusta o modelo de regressão linear para os 30 países selecionados
model_30_paises = LinearRegression()
model_30_paises.fit(X_30_paises, y_30_paises)

# Obtém os coeficientes para os 30 países selecionados
beta_0_30_paises = model_30_paises.intercept_
beta_1_30_paises = model_30_paises.coef_[0]

# Exibe os coeficientes
print(f'Intercepto (β0) para os 30 países selecionados: {beta_0_30_paises}')
print(f'Coeficiente (β1) para os 30 países selecionados: {beta_1_30_paises}')

# Prediz a felicidade com base no modelo para os 30 países selecionados
y_pred_30_paises = model_30_paises.predict(X_30_paises)

# Plota a linha de regressão para os 30 países selecionados
plt.figure(figsize=(10, 6))
plt.scatter(X_30_paises, y_30_paises, color='purple', label='Dados Reais')
plt.plot(X_30_paises, y_pred_30_paises, color='orange', label='Linha de Regressão')
plt.title('Regressão Linear: Índice de Felicidade vs PIB per Capita (30 Países Selecionados)')
plt.xlabel('PIB per Capita (Log)')
plt.ylabel('Índice de Felicidade')
plt.legend()
plt.grid(True)
plt.show()

## R²: Quanto do índice de felicidade é explicado pelo PIB - 30 Países Selecionados

In [None]:
# Calcula o coeficiente de determinação R^2 para os 30 países selecionados
r2_30_paises = model_30_paises.score(X_30_paises, y_30_paises)
print(f'Coeficiente de Determinação (R^2) para os 30 países selecionados: {r2_30_paises}')

</br>

___

</br>

# 6. Interpretação dos Resultados

## Conclusões das Correlações

### Grupo 1
A correlação de Pearson para o Grupo 1 é de -0.343. Isso indica uma correlação negativa moderada entre o PIB per capita e o índice de felicidade. Em outras palavras, à medida que o PIB per capita aumenta, o índice de felicidade tende a diminuir ligeiramente para este grupo.

### Grupo 2
A correlação de Pearson para o Grupo 2 é de 0.157. Isso sugere uma correlação positiva fraca entre o PIB per capita e o índice de felicidade. Portanto, um aumento no PIB per capita está associado a um pequeno aumento no índice de felicidade para este grupo.

### Grupo 3
A correlação de Pearson para o Grupo 3 é de -0.014. Isso indica uma correlação praticamente inexistente entre o PIB per capita e o índice de felicidade. Assim, para este grupo, o PIB per capita não parece ter uma relação significativa com o índice de felicidade.

### 30 Países Selecionados
A correlação de Pearson para os 30 países selecionados é de 0.846. Isso indica uma forte correlação positiva entre o PIB per capita e o índice de felicidade. Portanto, um aumento no PIB per capita está fortemente associado a um aumento no índice de felicidade para este conjunto de países.
```

## Conclusões dos Coeficientes de Regressão Linear (𝛽1)

### Grupo 1
O coeficiente 𝛽1 para o Grupo 1 é de aproximadamente -0.233. Isso indica que, para cada aumento unitário no PIB per capita (logaritmo), o índice de felicidade diminui em 0.233 pontos. Essa relação negativa sugere que, dentro deste grupo, um maior PIB per capita está associado a uma leve diminuição no índice de felicidade.

### Grupo 2
O coeficiente 𝛽1 para o Grupo 2 é de aproximadamente 0.024. Isso sugere que, para cada aumento unitário no PIB per capita (logaritmo), o índice de felicidade aumenta em 0.024 pontos. No entanto, esse aumento é muito pequeno, indicando uma relação fraca entre o PIB per capita e o índice de felicidade para este grupo.

### Grupo 3
O coeficiente 𝛽1 para o Grupo 3 é de aproximadamente -0.010. Isso indica que, para cada aumento unitário no PIB per capita (logaritmo), o índice de felicidade diminui em 0.010 pontos. Essa relação é praticamente inexistente, sugerindo que o PIB per capita não tem um impacto significativo no índice de felicidade para este grupo.

### 30 Países Selecionados
O coeficiente 𝛽1 para os 30 países selecionados é de aproximadamente 1.024. Isso indica que, para cada aumento unitário no PIB per capita (logaritmo), o índice de felicidade aumenta em 1.024 pontos. Essa relação positiva e significativa sugere que, para este conjunto de países, um maior PIB per capita está fortemente associado a um aumento no índice de felicidade.
```

## Conclusões dos Coeficientes de Determinação (R²)

### Grupo 1
O coeficiente de determinação (R²) para o Grupo 1 é de aproximadamente 0.118. Isso indica que cerca de 11.8% da variação no índice de felicidade pode ser explicada pelo PIB per capita para este grupo. Embora haja alguma relação, a maior parte da variação no índice de felicidade é explicada por outros fatores não incluídos no modelo.

### Grupo 2
O coeficiente de determinação (R²) para o Grupo 2 é de aproximadamente 0.025. Isso sugere que apenas 2.5% da variação no índice de felicidade pode ser explicada pelo PIB per capita para este grupo. A relação entre o PIB per capita e o índice de felicidade é muito fraca, indicando que outros fatores têm um papel muito mais significativo na determinação da felicidade.

### Grupo 3
O coeficiente de determinação (R²) para o Grupo 3 é de aproximadamente 0.0002. Isso indica que praticamente nenhuma variação no índice de felicidade pode ser explicada pelo PIB per capita para este grupo. O PIB per capita não é um fator relevante para explicar a felicidade neste grupo de países.

### 30 Países Selecionados
O coeficiente de determinação (R²) para os 30 países selecionados é de aproximadamente 0.715. Isso indica que cerca de 71.5% da variação no índice de felicidade pode ser explicada pelo PIB per capita para este conjunto de países. Há uma forte relação entre o PIB per capita e o índice de felicidade, sugerindo que o PIB per capita é um fator importante na determinação da felicidade para esses países.

</br>

___

</br>

# 7. Resumo dos Resultados

In [None]:
# Calcula a média do índice de felicidade para cada categoria de PIB nos três grupos
media_felicidade_grupo_1 = df_pib_felicidade_2023_grupo_1.groupby('PIB Categoria', observed=True)['Ladder score'].mean()
media_felicidade_grupo_2 = df_pib_felicidade_2023_grupo_2.groupby('PIB Categoria', observed=True)['Ladder score'].mean()
media_felicidade_grupo_3 = df_pib_felicidade_2023_grupo_3.groupby('PIB Categoria', observed=True)['Ladder score'].mean()

# Cria um DataFrame com as médias para facilitar a plotagem
media_felicidade = pd.DataFrame({
    'Grupo 1': media_felicidade_grupo_1,
    'Grupo 2': media_felicidade_grupo_2,
    'Grupo 3': media_felicidade_grupo_3
}).reset_index()

# Define a largura das barras
bar_width = 0.25

# Define a posição das barras no eixo x
r1 = range(len(media_felicidade))
r2 = [x + bar_width for x in r1]
r3 = [x + bar_width for x in r2]

# Cria o gráfico de barras
plt.figure(figsize=(12, 6))
plt.bar(r1, media_felicidade['Grupo 1'], color='blue', width=bar_width, edgecolor='grey', label='Grupo 1')
plt.bar(r2, media_felicidade['Grupo 2'], color='green', width=bar_width, edgecolor='grey', label='Grupo 2')
plt.bar(r3, media_felicidade['Grupo 3'], color='red', width=bar_width, edgecolor='grey', label='Grupo 3')

# Adiciona título e rótulos aos eixos
plt.title('Média do Índice de Felicidade por Categoria de PIB')
plt.xlabel('Categoria de PIB')
plt.ylabel('Média do Índice de Felicidade')
plt.xticks([r + bar_width for r in range(len(media_felicidade))], media_felicidade['PIB Categoria'])

# Adiciona uma legenda
plt.legend()

# Exibe o gráfico
plt.show()

In [None]:
# Calcula a média do índice de felicidade para cada categoria de PIB nos 30 países selecionados
media_felicidade_30_paises = df_pib_felicidade_2023_30_paises.groupby('PIB Categoria', observed=True)['Ladder score'].mean()

# Cria um DataFrame com as médias para facilitar a plotagem
media_felicidade_30_paises_df = pd.DataFrame({
    'PIB Categoria': media_felicidade_30_paises.index,
    'Média do Índice de Felicidade': media_felicidade_30_paises.values
}).reset_index(drop=True)

# Define a largura das barras
bar_width = 0.5

# Cria o gráfico de barras
plt.figure(figsize=(10, 6))
plt.bar(media_felicidade_30_paises_df['PIB Categoria'], media_felicidade_30_paises_df['Média do Índice de Felicidade'], color=['blue', 'green', 'red'], width=bar_width, edgecolor='grey')

# Adiciona título e rótulos aos eixos
plt.title('Média do Índice de Felicidade por Categoria de PIB (30 Países Selecionados)')
plt.xlabel('Categoria de PIB')
plt.ylabel('Média do Índice de Felicidade')

# Adiciona uma grade ao gráfico
plt.grid(True)

# Exibe o gráfico
plt.show()

### Correlações
- **Grupo 1**: A correlação de Pearson é de -0.343, indicando uma correlação negativa moderada entre o PIB per capita e o índice de felicidade. À medida que o PIB per capita aumenta, o índice de felicidade tende a diminuir ligeiramente.
- **Grupo 2**: A correlação de Pearson é de 0.157, sugerindo uma correlação positiva fraca entre o PIB per capita e o índice de felicidade. Um aumento no PIB per capita está associado a um pequeno aumento no índice de felicidade.
- **Grupo 3**: A correlação de Pearson é de -0.014, indicando uma correlação praticamente inexistente entre o PIB per capita e o índice de felicidade. O PIB per capita não parece ter uma relação significativa com o índice de felicidade.
- **30 Países Selecionados**: A correlação de Pearson é de 0.846, indicando uma forte correlação positiva entre o PIB per capita e o índice de felicidade. Um aumento no PIB per capita está fortemente associado a um aumento no índice de felicidade.

### Coeficientes de Regressão Linear (𝛽1)
- **Grupo 1**: O coeficiente 𝛽1 é de aproximadamente -0.233, sugerindo que um maior PIB per capita está associado a uma leve diminuição no índice de felicidade.
- **Grupo 2**: O coeficiente 𝛽1 é de aproximadamente 0.024, indicando uma relação fraca entre o PIB per capita e o índice de felicidade.
- **Grupo 3**: O coeficiente 𝛽1 é de aproximadamente -0.010, sugerindo que o PIB per capita não tem um impacto significativo no índice de felicidade.
- **30 Países Selecionados**: O coeficiente 𝛽1 é de aproximadamente 1.024, indicando que um maior PIB per capita está fortemente associado a um aumento no índice de felicidade.

### Coeficientes de Determinação (R²)
- **Grupo 1**: O coeficiente de determinação (R²) é de aproximadamente 0.118, indicando que cerca de 11.8% da variação no índice de felicidade pode ser explicada pelo PIB per capita.
- **Grupo 2**: O coeficiente de determinação (R²) é de aproximadamente 0.025, sugerindo que apenas 2.5% da variação no índice de felicidade pode ser explicada pelo PIB per capita.
- **Grupo 3**: O coeficiente de determinação (R²) é de aproximadamente 0.0002, indicando que praticamente nenhuma variação no índice de felicidade pode ser explicada pelo PIB per capita.
- **30 Países Selecionados**: O coeficiente de determinação (R²) é de aproximadamente 0.715, indicando que cerca de 71.5% da variação no índice de felicidade pode ser explicada pelo PIB per capita.

## Limitações

- **Fatores Adicionais**: A felicidade pode depender de muitos outros fatores além do PIB per capita, como desigualdade de renda, educação, saúde, segurança, cultura, entre outros.
- **Dados Limitados**: A análise foi baseada em dados de um único ano. Resultados mais robustos poderiam ser obtidos com dados de múltiplos anos.
- **Grupos Pequenos**: A divisão dos países em três grupos pode ter limitado a capacidade de detectar relações mais sutis entre o PIB per capita e a felicidade.
- **Relações Não Lineares**: A análise considerou apenas relações lineares. Relações não lineares entre o PIB per capita e a felicidade podem existir e não foram exploradas.

</br>

___

</br>

# 8. Próximos Passos

- Usar dados de outros anos para verificar se os resultados são consistentes.
- Considerar variáveis adicionais: desigualdade de renda, educação, saúde e etc.
- Aprofundar análises: Estudos comparativos regionais.

</br>

___

</br>