# 1. Defini√ß√£o do Problema e Objetivo

## Pergunta de pesquisa:
- Existe uma rela√ß√£o entre o √≠ndice de felicidade e o PIB per capita? A rela√ß√£o √© linear?

## Objetivo:
- Entender se o PIB per capita √© um fator que influencia o √≠ndice de felicidade.
- Examinar a for√ßa e o tipo de rela√ß√£o (positiva, negativa, inexistente).

</br>

___

</br>


# 2. Coleta de Dados

#### Base de Dados: **World Happiness Reports 2013-2023**

#### Fonte: https://www.kaggle.com/datasets/joebeachcapital/world-happiness-report-2013-2023

#### Ferramentas: Jupyter Notebook, Python, Pandas.

</br>

___

</br>

In [1]:
# Importa a biblioteca Pandas para an√°lise de dados
import pandas as pd

# Importa e usa o pacote 'os' para mudar o diret√≥rio base do Python
import os

In [2]:
# O diret√≥rio no qual o Python est√° trabalhando:
print('Diret√≥rio inicial: {}'.format(os.getcwd()))

# Muda para o diret√≥rio contendo a base de dados
os.chdir(r'C:\Users\vinic\Meu Drive\Trabalho de Computa√ß√£o - Grupo I\An√°lise de Dados')
print('Diret√≥rio final: {}'.format(os.getcwd()))

Diret√≥rio inicial: C:\Users\10784421\Downloads\Trabalho de Computa√ß√£o - Grupo I\An√°lise de Dados


FileNotFoundError: [WinError 3] O sistema n√£o pode encontrar o caminho especificado: 'C:\\Users\\vinic\\Meu Drive\\Trabalho de Computa√ß√£o - Grupo I\\An√°lise de Dados'

In [None]:
# Lista os arquivos no diret√≥rio
os.listdir()

In [None]:
# Lendo o arquivo CSV da base de dados e armazenando em um DataFrame
df_pib_felicidade_2023 = pd.read_csv('World Happiness Report 2023.csv', sep=',', encoding='utf8')

# Coletando apenas as colunas 'Ladder score (√çndice de Felicidade)' e 'Logged GDP per capita (PIB per capita)'
df_pib_felicidade_2023 = df_pib_felicidade_2023[['Country name', 'Logged GDP per capita', 'Ladder score']]

In [None]:
# Retorna as informa√ß√µes t√©cnicas sobre o DataFrame
df_pib_felicidade_2023.info(memory_usage='deep')

In [None]:
# Ordena (decrescente) pelo √çndice de Felicidade e armazena os dados dos 10 maiores em um novo DataFrame
df_pib_felicidade_2023_grupo_1 = df_pib_felicidade_2023.sort_values(by='Ladder score', ascending=False).head(10)

# Exibe o DataFrame
df_pib_felicidade_2023_grupo_1

In [None]:
# Calcula a diferen√ßa absoluta entre o Ladder score e o ponto m√©dio entre os extremos do intervalo do √≠ndice de felicidade [1.859, 7.804]: 4.832
df_pib_felicidade_2023['diff'] = abs(df_pib_felicidade_2023['Ladder score'] - 4.832)

# Ordena os pa√≠ses pela diferen√ßa e seleciona os 10 mais pr√≥ximos
df_pib_felicidade_2023_grupo_2 = df_pib_felicidade_2023.sort_values(by='diff').head(10)

# Ordena de forma decrescente pelo Ladder score
df_pib_felicidade_2023_grupo_2 = df_pib_felicidade_2023_grupo_2.sort_values(by='Ladder score', ascending=False)

# Remove a coluna de diferen√ßa
df_pib_felicidade_2023_grupo_2 = df_pib_felicidade_2023_grupo_2.drop(columns=['diff'])

# Exibe o DataFrame
df_pib_felicidade_2023_grupo_2

In [None]:
# Remove a coluna de diferen√ßa
df_pib_felicidade_2023 = df_pib_felicidade_2023.drop(columns=['diff'])

# Ordena (decrescente) pelo √çndice de Felicidade e armazena os dados dos 10 menores em um novo DataFrame
df_pib_felicidade_2023_grupo_3 = df_pib_felicidade_2023.sort_values(by='Ladder score', ascending=False).tail(10)

# Exibe o DataFrame
df_pib_felicidade_2023_grupo_3


# 3. Limpeza e Prepara√ß√£o dos Dados
___

</br>

In [None]:
# Verifica se h√° valores ausentes no DataFrame
valores_ausentes = df_pib_felicidade_2023.isnull().sum()
print(f"N√∫mero de valores ausentes por coluna: \n{valores_ausentes}")

# Verifica se h√° pa√≠ses duplicados no DataFrame
duplicatas = df_pib_felicidade_2023[df_pib_felicidade_2023.duplicated(subset='Country name', keep=False)]

if duplicatas.empty:
    print("\nN√£o h√° pa√≠ses duplicados no DataFrame.")
else:
    print(f"\nPa√≠ses duplicados: {duplicatas}")

In [None]:
# Obt√©m os nomes dos pa√≠ses de cada dataframe dos grupos 1, 2 e 3
paises_grupo_1 = set(df_pib_felicidade_2023_grupo_1['Country name'])
paises_grupo_2 = set(df_pib_felicidade_2023_grupo_2['Country name'])
paises_grupo_3 = set(df_pib_felicidade_2023_grupo_3['Country name'])

# Encontra a interse√ß√£o dos tr√™s conjuntos
paises_comuns = paises_grupo_1 & paises_grupo_2 & paises_grupo_3

# Exibe os pa√≠ses comuns (se houver)
if paises_comuns:
	print(f"Pa√≠ses com nomes iguais entre os tr√™s dataframes: {paises_comuns}")
else:
	print("N√£o h√° pa√≠ses com nomes iguais entre os tr√™s dataframes")

In [None]:
# Junta os tr√™s dataframes em um novo dataframe com os 30 pa√≠ses selecionados
df_pib_felicidade_2023_30_paises = pd.concat([df_pib_felicidade_2023_grupo_1, df_pib_felicidade_2023_grupo_2, df_pib_felicidade_2023_grupo_3], ignore_index=True).sort_values(by='Ladder score', ascending=False)

# Exibe o novo dataframe combinado
df_pib_felicidade_2023_30_paises

# 4. An√°lise Explorat√≥ria dos Dados

___

</br>

## Estat√≠sticas Descritivas - Grupo 1

In [None]:
# Descreve e armazena uma tabela de estat√≠sticas descritivas das colunas num√©ricas do DataFrame
estatisticas_grupo_1 = df_pib_felicidade_2023_grupo_1.describe()

# Seleciona apenas as colunas num√©ricas do DataFrame
df_pib_felicidade_2023_grupo_1_numerico = df_pib_felicidade_2023_grupo_1.select_dtypes(include=['float64'])

# Calcula o desvio padr√£o ao quadrado (vari√¢ncia) dos dados e adiciona ao DataFrame de descri√ß√£o
desvio_padrao_ao_quadrado_grupo_1 = df_pib_felicidade_2023_grupo_1_numerico.std() ** 2
estatisticas_grupo_1.loc['var'] = desvio_padrao_ao_quadrado_grupo_1

# Reordena as linhas para colocar a vari√¢ncia antes do desvio padr√£o e ap√≥s a m√©dia
estatisticas_grupo_1 = estatisticas_grupo_1.loc[['count', 'mean', 'var', 'std', 'min', '25%', '50%', '75%', 'max'] + [col for col in estatisticas_grupo_1.index if col not in ['count', 'mean', 'var', 'std', 'min', '25%', '50%', '75%', 'max']]]

# Exibe a tabela de estat√≠sticas descritivas
estatisticas_grupo_1

## Estat√≠sticas Descritivas - Grupo 2

In [None]:
# Descreve e armazena uma tabela de estat√≠sticas descritivas das colunas num√©ricas do DataFrame
estatisticas_grupo_2 = df_pib_felicidade_2023_grupo_2.describe()

# Seleciona apenas as colunas num√©ricas do DataFrame 
df_pib_felicidade_2023_grupo_2_numerico = df_pib_felicidade_2023_grupo_2.select_dtypes(include=['float64'])

# Calcula o desvio padr√£o ao quadrado (vari√¢ncia) dos dados e adiciona ao DataFrame de descri√ß√£o
desvio_padrao_ao_quadrado_grupo_2 = df_pib_felicidade_2023_grupo_2_numerico.std() ** 2
estatisticas_grupo_2.loc['var'] = desvio_padrao_ao_quadrado_grupo_2

# Reordena as linhas para colocar a vari√¢ncia antes do desvio padr√£o e ap√≥s a m√©dia
estatisticas_grupo_2 = estatisticas_grupo_2.loc[['count', 'mean', 'var', 'std', 'min', '25%', '50%', '75%', 'max'] + [col for col in estatisticas_grupo_2.index if col not in ['count', 'mean', 'var', 'std', 'min', '25%', '50%', '75%', 'max']]]

# Exibe a tabela de estat√≠sticas descritivas
estatisticas_grupo_2

## Estat√≠sticas Descritivas - Grupo 3

In [None]:
# Descreve e armazena uma tabela de estat√≠sticas descritivas das colunas num√©ricas do DataFrame
estatisticas_grupo_3 = df_pib_felicidade_2023_grupo_3.describe()

# Seleciona apenas as colunas num√©ricas do DataFrame 
df_pib_felicidade_2023_grupo_3_numerico = df_pib_felicidade_2023_grupo_3.select_dtypes(include=['float64'])

# Calcula o desvio padr√£o ao quadrado (vari√¢ncia) dos dados e adiciona ao DataFrame de descri√ß√£o
desvio_padrao_ao_quadrado_grupo_3 = df_pib_felicidade_2023_grupo_3_numerico.std() ** 2
estatisticas_grupo_3.loc['var'] = desvio_padrao_ao_quadrado_grupo_3

# Reordena as linhas para colocar a vari√¢ncia antes do desvio padr√£o e ap√≥s a m√©dia
estatisticas_grupo_3 = estatisticas_grupo_3.loc[['count', 'mean', 'var', 'std', 'min', '25%', '50%', '75%', 'max'] + [col for col in estatisticas_grupo_3.index if col not in ['count', 'mean', 'var', 'std', 'min', '25%', '50%', '75%', 'max']]]

# Exibe a tabela de estat√≠sticas descritivas
estatisticas_grupo_3

## Estat√≠sticas Descritivas - 30 Pa√≠ses Selecionados

In [None]:
# Descreve e armazena uma tabela de estat√≠sticas descritivas das colunas num√©ricas do DataFrame
estatisticas_30_paises = df_pib_felicidade_2023_30_paises.describe()

# Seleciona apenas as colunas num√©ricas do DataFrame 
df_pib_felicidade_2023_30_paises_numerico = df_pib_felicidade_2023_30_paises.select_dtypes(include=['float64'])

# Calcula o desvio padr√£o ao quadrado (vari√¢ncia) dos dados e adiciona ao DataFrame de descri√ß√£o
desvio_padrao_ao_quadrado_30_paises = df_pib_felicidade_2023_30_paises_numerico.std() ** 2
estatisticas_30_paises.loc['var'] = desvio_padrao_ao_quadrado_30_paises

# Reordena as linhas para colocar a vari√¢ncia antes do desvio padr√£o e ap√≥s a m√©dia
estatisticas_30_paises = estatisticas_30_paises.loc[['count', 'mean', 'var', 'std', 'min', '25%', '50%', '75%', 'max'] + [col for col in estatisticas_30_paises.index if col not in ['count', 'mean', 'var', 'std', 'min', '25%', '50%', '75%', 'max']]]

# Exibe a tabela de estat√≠sticas descritivas
estatisticas_30_paises

# Gr√°ficos de Dispers√£o - Grupo 1

In [None]:
import matplotlib.pyplot as plt

# Cria o gr√°fico de dispers√£o
plt.figure(figsize=(10, 6))
plt.scatter(df_pib_felicidade_2023_grupo_1['Logged GDP per capita'], df_pib_felicidade_2023_grupo_1['Ladder score'], color='blue')

# Adiciona t√≠tulo e r√≥tulos aos eixos
plt.title('Rela√ß√£o entre o √çndice de Felicidade e o PIB per Capita (Grupo 1)')
plt.xlabel('PIB per Capita (Log)')
plt.ylabel('√çndice de Felicidade')

# Adiciona uma grade ao gr√°fico
plt.grid(True)

# Exibe o gr√°fico
plt.show()

## Boxplots - Distribui√ß√µes em categorias de PIB (baixo, m√©dio, alto) - Grupo 1

In [None]:
# Importa a biblioteca Seaborn para visualiza√ß√£o de dados
import seaborn as sns

# Categoriza os pa√≠ses do grupo 1 em tr√™s categorias de PIB (baixo, m√©dio, alto)
quartis = df_pib_felicidade_2023_grupo_1['Logged GDP per capita'].quantile([0.33, 0.66])
df_pib_felicidade_2023_grupo_1['PIB Categoria'] = pd.cut(df_pib_felicidade_2023_grupo_1['Logged GDP per capita'], bins=[-float('inf'), quartis[0.33], quartis[0.66], float('inf')], labels=['Baixo', 'M√©dio', 'Alto'])

# Cria os boxplots para comparar as distribui√ß√µes do √çndice de Felicidade em categorias de PIB
plt.figure(figsize=(10, 6))
sns.boxplot(x='PIB Categoria', y='Ladder score', data=df_pib_felicidade_2023_grupo_1)

# Adiciona t√≠tulo e r√≥tulos aos eixos
plt.title('Distribui√ß√£o do √çndice de Felicidade por Categoria de PIB (Grupo 1)')
plt.xlabel('Categoria de PIB')
plt.ylabel('√çndice de Felicidade')

# Exibe o gr√°fico
plt.show()

# Gr√°ficos de Dispers√£o - Grupo 2

In [None]:
# Cria o gr√°fico de dispers√£o
plt.figure(figsize=(10, 6))
plt.scatter(df_pib_felicidade_2023_grupo_2['Logged GDP per capita'], df_pib_felicidade_2023_grupo_2['Ladder score'], color='green')

# Adiciona t√≠tulo e r√≥tulos aos eixos
plt.title('Rela√ß√£o entre o √çndice de Felicidade e o PIB per Capita (Grupo 2)')
plt.xlabel('PIB per Capita (Log)')
plt.ylabel('√çndice de Felicidade')

# Adiciona uma grade ao gr√°fico
plt.grid(True)

# Exibe o gr√°fico
plt.show()

## Boxplots - Distribui√ß√µes em categorias de PIB (baixo, m√©dio, alto) - Grupo 2

In [None]:
# Categoriza os pa√≠ses do grupo 2 em tr√™s categorias de PIB (baixo, m√©dio, alto)
quartis = df_pib_felicidade_2023_grupo_2['Logged GDP per capita'].quantile([0.33, 0.66])
df_pib_felicidade_2023_grupo_2['PIB Categoria'] = pd.cut(df_pib_felicidade_2023_grupo_2['Logged GDP per capita'], bins=[-float('inf'), quartis[0.33], quartis[0.66], float('inf')], labels=['Baixo', 'M√©dio', 'Alto'])

# Cria os boxplots para comparar as distribui√ß√µes do √çndice de Felicidade em categorias de PIB
plt.figure(figsize=(10, 6))
sns.boxplot(x='PIB Categoria', y='Ladder score', data=df_pib_felicidade_2023_grupo_2)

# Adiciona t√≠tulo e r√≥tulos aos eixos
plt.title('Distribui√ß√£o do √çndice de Felicidade por Categoria de PIB (Grupo 2)')
plt.xlabel('Categoria de PIB')
plt.ylabel('√çndice de Felicidade')

# Exibe o gr√°fico
plt.show()

# Gr√°ficos de Dispers√£o - Grupo 3

In [None]:
# Cria o gr√°fico de dispers√£o
plt.figure(figsize=(10, 6))
plt.scatter(df_pib_felicidade_2023_grupo_3['Logged GDP per capita'], df_pib_felicidade_2023_grupo_3['Ladder score'], color='red')

# Adiciona t√≠tulo e r√≥tulos aos eixos
plt.title('Rela√ß√£o entre o √çndice de Felicidade e o PIB per Capita (Grupo 3)')
plt.xlabel('PIB per Capita (Log)')
plt.ylabel('√çndice de Felicidade')

# Adiciona uma grade ao gr√°fico
plt.grid(True)

# Exibe o gr√°fico
plt.show()

## Boxplots - Distribui√ß√µes em categorias de PIB (baixo, m√©dio, alto) - Grupo 3

In [None]:
# Categoriza os pa√≠ses do grupo 3 em tr√™s categorias de PIB (baixo, m√©dio, alto)
quartis = df_pib_felicidade_2023_grupo_3['Logged GDP per capita'].quantile([0.33, 0.66])
df_pib_felicidade_2023_grupo_3['PIB Categoria'] = pd.cut(df_pib_felicidade_2023_grupo_3['Logged GDP per capita'], bins=[-float('inf'), quartis[0.33], quartis[0.66], float('inf')], labels=['Baixo', 'M√©dio', 'Alto'])

# Cria os boxplots para comparar as distribui√ß√µes do √çndice de Felicidade em categorias de PIB
plt.figure(figsize=(10, 6))
sns.boxplot(x='PIB Categoria', y='Ladder score', data=df_pib_felicidade_2023_grupo_3)

# Adiciona t√≠tulo e r√≥tulos aos eixos
plt.title('Distribui√ß√£o do √çndice de Felicidade por Categoria de PIB (Grupo 3)')
plt.xlabel('Categoria de PIB')
plt.ylabel('√çndice de Felicidade')

# Exibe o gr√°fico
plt.show()

## Gr√°ficos de Dispers√£o - 30 Pa√≠ses Selecionados

In [None]:
# Cria o gr√°fico de dispers√£o para os 30 pa√≠ses selecionados
plt.figure(figsize=(10, 6))
plt.scatter(df_pib_felicidade_2023_30_paises['Logged GDP per capita'], df_pib_felicidade_2023_30_paises['Ladder score'], color='purple')

# Adiciona t√≠tulo e r√≥tulos aos eixos
plt.title('Rela√ß√£o entre o √çndice de Felicidade e o PIB per Capita (30 Pa√≠ses Selecionados)')
plt.xlabel('PIB per Capita (Log)')
plt.ylabel('√çndice de Felicidade')

# Adiciona uma grade ao gr√°fico
plt.grid(True)

# Exibe o gr√°fico
plt.show()

## Boxplots - Distribui√ß√µes em categorias de PIB (baixo, m√©dio, alto) - 30 Pa√≠ses Selecionados

In [None]:
# Categoriza os pa√≠ses dos 30 pa√≠ses selecionados em tr√™s categorias de PIB (baixo, m√©dio, alto)
quartis = df_pib_felicidade_2023_30_paises['Logged GDP per capita'].quantile([0.33, 0.66])
df_pib_felicidade_2023_30_paises['PIB Categoria'] = pd.cut(df_pib_felicidade_2023_30_paises['Logged GDP per capita'], bins=[-float('inf'), quartis[0.33], quartis[0.66], float('inf')], labels=['Baixo', 'M√©dio', 'Alto'])

# Cria os boxplots para comparar as distribui√ß√µes do √çndice de Felicidade em categorias de PIB
plt.figure(figsize=(10, 6))
sns.boxplot(x='PIB Categoria', y='Ladder score', data=df_pib_felicidade_2023_30_paises)

# Adiciona t√≠tulo e r√≥tulos aos eixos
plt.title('Distribui√ß√£o do √çndice de Felicidade por Categoria de PIB (30 Pa√≠ses Selecionados)')
plt.xlabel('Categoria de PIB')
plt.ylabel('√çndice de Felicidade')

# Exibe o gr√°fico
plt.show()

# 5. Modelagem Estat√≠stica

</br>

___

</br>

## Coeficiente de Correla√ß√£o de Pearson - Grupo 1

In [None]:
# Calcula o coeficiente de correla√ß√£o de Pearson para o grupo 1 usando corr()
correlacao_grupo_1_corr = df_pib_felicidade_2023_grupo_1[['Logged GDP per capita', 'Ladder score']].corr().iloc[0, 1]

# Exibe o coeficiente de correla√ß√£o
print(f'Coeficiente de Correla√ß√£o de Pearson para o grupo 1 (usando corr()): {correlacao_grupo_1_corr}')


## Coeficiente de Correla√ß√£o de Pearson - Grupo 2

In [None]:
# Calcula o coeficiente de correla√ß√£o de Pearson para o grupo 2 usando corr()
correlacao_grupo_2_corr = df_pib_felicidade_2023_grupo_2[['Logged GDP per capita', 'Ladder score']].corr().iloc[0, 1]

# Exibe o coeficiente de correla√ß√£o
print(f'Coeficiente de Correla√ß√£o de Pearson para o grupo 2: {correlacao_grupo_2_corr}')

## Coeficiente de Correla√ß√£o de Pearson - Grupo 3

In [None]:
# Calcula o coeficiente de correla√ß√£o de Pearson para o grupo 3 usando corr()
correlacao_grupo_3_corr = df_pib_felicidade_2023_grupo_3[['Logged GDP per capita', 'Ladder score']].corr().iloc[0, 1]

# Exibe o coeficiente de correla√ß√£o
print(f'Coeficiente de Correla√ß√£o de Pearson para o grupo 3: {correlacao_grupo_3_corr}')

## Coeficiente de Correla√ß√£o de Pearson - 30 Pa√≠ses Selecionados

In [None]:
# Calcula o coeficiente de correla√ß√£o de Pearson para os 30 pa√≠ses selecionados usando corr()
correlacao_30_paises_corr = df_pib_felicidade_2023_30_paises[['Logged GDP per capita', 'Ladder score']].corr().iloc[0, 1]

# Exibe o coeficiente de correla√ß√£o
print(f'Coeficiente de Correla√ß√£o de Pearson para os 30 pa√≠ses selecionados: {correlacao_30_paises_corr}')

## Regress√£o Linear - Grupo 1

In [None]:
# Importa a classe LinearRegression do sklearn
from sklearn.linear_model import LinearRegression

# Define as vari√°veis preditoras (X) e de resposta (y) para o grupo 1
X_grupo_1 = df_pib_felicidade_2023_grupo_1[['Logged GDP per capita']].values.reshape(-1, 1)
y_grupo_1 = df_pib_felicidade_2023_grupo_1['Ladder score'].values

# Cria e ajusta o modelo de regress√£o linear para o grupo 1
model_grupo_1 = LinearRegression()
model_grupo_1.fit(X_grupo_1, y_grupo_1)

# Obt√©m os coeficientes para o grupo 1
beta_0_grupo_1 = model_grupo_1.intercept_
beta_1_grupo_1 = model_grupo_1.coef_[0]

# Exibe os coeficientes
print(f'Intercepto (Œ≤0) para o grupo 1: {beta_0_grupo_1}')
print(f'Coeficiente (Œ≤1) para o grupo 1: {beta_1_grupo_1}')

# Prediz a felicidade com base no modelo para o grupo 1
y_pred_grupo_1 = model_grupo_1.predict(X_grupo_1)

# Plota a linha de regress√£o para o grupo 1
plt.figure(figsize=(10, 6))
plt.scatter(X_grupo_1, y_grupo_1, color='blue', label='Dados Reais')
plt.plot(X_grupo_1, y_pred_grupo_1, color='orange', label='Linha de Regress√£o')
plt.title('Regress√£o Linear: √çndice de Felicidade vs PIB per Capita (Grupo 1)')
plt.xlabel('PIB per Capita (Log)')
plt.ylabel('√çndice de Felicidade')
plt.legend()
plt.grid(True)
plt.show()


## R¬≤: Quanto do √≠ndice de felicidade √© explicado pelo PIB - Grupo 1

In [None]:
# Calcula o coeficiente de determina√ß√£o R^2 para o grupo 1
r2_grupo_1 = model_grupo_1.score(X_grupo_1, y_grupo_1)
print(f'Coeficiente de Determina√ß√£o (R^2) para o grupo 1: {r2_grupo_1}')

## Regress√£o Linear - Grupo 2

In [None]:
# Define as vari√°veis preditoras (X) e de resposta (y) para o grupo 2
X_grupo_2 = df_pib_felicidade_2023_grupo_2[['Logged GDP per capita']].values.reshape(-1, 1)
y_grupo_2 = df_pib_felicidade_2023_grupo_2['Ladder score'].values

# Cria e ajusta o modelo de regress√£o linear para o grupo 2
model_grupo_2 = LinearRegression()
model_grupo_2.fit(X_grupo_2, y_grupo_2)

# Obt√©m os coeficientes para o grupo 2
beta_0_grupo_2 = model_grupo_2.intercept_
beta_1_grupo_2 = model_grupo_2.coef_[0]

# Exibe os coeficientes
print(f'Intercepto (Œ≤0) para o grupo 2: {beta_0_grupo_2}')
print(f'Coeficiente (Œ≤1) para o grupo 2: {beta_1_grupo_2}')

# Prediz a felicidade com base no modelo para o grupo 2
y_pred_grupo_2 = model_grupo_2.predict(X_grupo_2)

# Plota a linha de regress√£o para o grupo 2
plt.figure(figsize=(10, 6))
plt.scatter(X_grupo_2, y_grupo_2, color='green', label='Dados Reais')
plt.plot(X_grupo_2, y_pred_grupo_2, color='orange', label='Linha de Regress√£o')
plt.title('Regress√£o Linear: √çndice de Felicidade vs PIB per Capita (Grupo 2)')
plt.xlabel('PIB per Capita (Log)')
plt.ylabel('√çndice de Felicidade')
plt.legend()
plt.grid(True)
plt.show()

## R¬≤: Quanto do √≠ndice de felicidade √© explicado pelo PIB - Grupo 2

In [None]:
# Calcula o coeficiente de determina√ß√£o R^2 para o grupo 2
r2_grupo_2 = model_grupo_2.score(X_grupo_2, y_grupo_2)
print(f'Coeficiente de Determina√ß√£o (R^2) para o grupo 2: {r2_grupo_2}')

## Regress√£o Linear - Grupo 3

In [None]:
# Define as vari√°veis preditoras (X) e de resposta (y) para o grupo 3
X_grupo_3 = df_pib_felicidade_2023_grupo_3[['Logged GDP per capita']].values.reshape(-1, 1)
y_grupo_3 = df_pib_felicidade_2023_grupo_3['Ladder score'].values

# Cria e ajusta o modelo de regress√£o linear para o grupo 3
model_grupo_3 = LinearRegression()
model_grupo_3.fit(X_grupo_3, y_grupo_3)

# Obt√©m os coeficientes para o grupo 3
beta_0_grupo_3 = model_grupo_3.intercept_
beta_1_grupo_3 = model_grupo_3.coef_[0]

# Exibe os coeficientes
print(f'Intercepto (Œ≤0) para o grupo 3: {beta_0_grupo_3}')
print(f'Coeficiente (Œ≤1) para o grupo 3: {beta_1_grupo_3}')

# Prediz a felicidade com base no modelo para o grupo 3
y_pred_grupo_3 = model_grupo_3.predict(X_grupo_3)

# Plota a linha de regress√£o para o grupo 3
plt.figure(figsize=(10, 6))
plt.scatter(X_grupo_3, y_grupo_3, color='red', label='Dados Reais')
plt.plot(X_grupo_3, y_pred_grupo_3, color='orange', label='Linha de Regress√£o')
plt.title('Regress√£o Linear: √çndice de Felicidade vs PIB per Capita (Grupo 3)')
plt.xlabel('PIB per Capita (Log)')
plt.ylabel('√çndice de Felicidade')
plt.legend()
plt.grid(True)
plt.show()

## R¬≤: Quanto do √≠ndice de felicidade √© explicado pelo PIB - Grupo 3

In [None]:
# Calcula o coeficiente de determina√ß√£o R^2 para o grupo 3
r2_grupo_3 = model_grupo_3.score(X_grupo_3, y_grupo_3)
print(f'Coeficiente de Determina√ß√£o (R^2) para o grupo 3: {r2_grupo_3}')

## Regress√£o Linear - 30 Pa√≠ses Selecionados

In [None]:
# Define as vari√°veis preditoras (X) e de resposta (y) para os 30 pa√≠ses selecionados
X_30_paises = df_pib_felicidade_2023_30_paises[['Logged GDP per capita']].values.reshape(-1, 1)
y_30_paises = df_pib_felicidade_2023_30_paises['Ladder score'].values

# Cria e ajusta o modelo de regress√£o linear para os 30 pa√≠ses selecionados
model_30_paises = LinearRegression()
model_30_paises.fit(X_30_paises, y_30_paises)

# Obt√©m os coeficientes para os 30 pa√≠ses selecionados
beta_0_30_paises = model_30_paises.intercept_
beta_1_30_paises = model_30_paises.coef_[0]

# Exibe os coeficientes
print(f'Intercepto (Œ≤0) para os 30 pa√≠ses selecionados: {beta_0_30_paises}')
print(f'Coeficiente (Œ≤1) para os 30 pa√≠ses selecionados: {beta_1_30_paises}')

# Prediz a felicidade com base no modelo para os 30 pa√≠ses selecionados
y_pred_30_paises = model_30_paises.predict(X_30_paises)

# Plota a linha de regress√£o para os 30 pa√≠ses selecionados
plt.figure(figsize=(10, 6))
plt.scatter(X_30_paises, y_30_paises, color='purple', label='Dados Reais')
plt.plot(X_30_paises, y_pred_30_paises, color='orange', label='Linha de Regress√£o')
plt.title('Regress√£o Linear: √çndice de Felicidade vs PIB per Capita (30 Pa√≠ses Selecionados)')
plt.xlabel('PIB per Capita (Log)')
plt.ylabel('√çndice de Felicidade')
plt.legend()
plt.grid(True)
plt.show()

## R¬≤: Quanto do √≠ndice de felicidade √© explicado pelo PIB - 30 Pa√≠ses Selecionados

In [None]:
# Calcula o coeficiente de determina√ß√£o R^2 para os 30 pa√≠ses selecionados
r2_30_paises = model_30_paises.score(X_30_paises, y_30_paises)
print(f'Coeficiente de Determina√ß√£o (R^2) para os 30 pa√≠ses selecionados: {r2_30_paises}')

</br>

___

</br>

# 6. Interpreta√ß√£o dos Resultados

## Conclus√µes das Correla√ß√µes

### Grupo 1
A correla√ß√£o de Pearson para o Grupo 1 √© de -0.343. Isso indica uma correla√ß√£o negativa moderada entre o PIB per capita e o √≠ndice de felicidade. Em outras palavras, √† medida que o PIB per capita aumenta, o √≠ndice de felicidade tende a diminuir ligeiramente para este grupo.

### Grupo 2
A correla√ß√£o de Pearson para o Grupo 2 √© de 0.157. Isso sugere uma correla√ß√£o positiva fraca entre o PIB per capita e o √≠ndice de felicidade. Portanto, um aumento no PIB per capita est√° associado a um pequeno aumento no √≠ndice de felicidade para este grupo.

### Grupo 3
A correla√ß√£o de Pearson para o Grupo 3 √© de -0.014. Isso indica uma correla√ß√£o praticamente inexistente entre o PIB per capita e o √≠ndice de felicidade. Assim, para este grupo, o PIB per capita n√£o parece ter uma rela√ß√£o significativa com o √≠ndice de felicidade.

### 30 Pa√≠ses Selecionados
A correla√ß√£o de Pearson para os 30 pa√≠ses selecionados √© de 0.846. Isso indica uma forte correla√ß√£o positiva entre o PIB per capita e o √≠ndice de felicidade. Portanto, um aumento no PIB per capita est√° fortemente associado a um aumento no √≠ndice de felicidade para este conjunto de pa√≠ses.
```

## Conclus√µes dos Coeficientes de Regress√£o Linear (ùõΩ1)

### Grupo 1
O coeficiente ùõΩ1 para o Grupo 1 √© de aproximadamente -0.233. Isso indica que, para cada aumento unit√°rio no PIB per capita (logaritmo), o √≠ndice de felicidade diminui em 0.233 pontos. Essa rela√ß√£o negativa sugere que, dentro deste grupo, um maior PIB per capita est√° associado a uma leve diminui√ß√£o no √≠ndice de felicidade.

### Grupo 2
O coeficiente ùõΩ1 para o Grupo 2 √© de aproximadamente 0.024. Isso sugere que, para cada aumento unit√°rio no PIB per capita (logaritmo), o √≠ndice de felicidade aumenta em 0.024 pontos. No entanto, esse aumento √© muito pequeno, indicando uma rela√ß√£o fraca entre o PIB per capita e o √≠ndice de felicidade para este grupo.

### Grupo 3
O coeficiente ùõΩ1 para o Grupo 3 √© de aproximadamente -0.010. Isso indica que, para cada aumento unit√°rio no PIB per capita (logaritmo), o √≠ndice de felicidade diminui em 0.010 pontos. Essa rela√ß√£o √© praticamente inexistente, sugerindo que o PIB per capita n√£o tem um impacto significativo no √≠ndice de felicidade para este grupo.

### 30 Pa√≠ses Selecionados
O coeficiente ùõΩ1 para os 30 pa√≠ses selecionados √© de aproximadamente 1.024. Isso indica que, para cada aumento unit√°rio no PIB per capita (logaritmo), o √≠ndice de felicidade aumenta em 1.024 pontos. Essa rela√ß√£o positiva e significativa sugere que, para este conjunto de pa√≠ses, um maior PIB per capita est√° fortemente associado a um aumento no √≠ndice de felicidade.
```

## Conclus√µes dos Coeficientes de Determina√ß√£o (R¬≤)

### Grupo 1
O coeficiente de determina√ß√£o (R¬≤) para o Grupo 1 √© de aproximadamente 0.118. Isso indica que cerca de 11.8% da varia√ß√£o no √≠ndice de felicidade pode ser explicada pelo PIB per capita para este grupo. Embora haja alguma rela√ß√£o, a maior parte da varia√ß√£o no √≠ndice de felicidade √© explicada por outros fatores n√£o inclu√≠dos no modelo.

### Grupo 2
O coeficiente de determina√ß√£o (R¬≤) para o Grupo 2 √© de aproximadamente 0.025. Isso sugere que apenas 2.5% da varia√ß√£o no √≠ndice de felicidade pode ser explicada pelo PIB per capita para este grupo. A rela√ß√£o entre o PIB per capita e o √≠ndice de felicidade √© muito fraca, indicando que outros fatores t√™m um papel muito mais significativo na determina√ß√£o da felicidade.

### Grupo 3
O coeficiente de determina√ß√£o (R¬≤) para o Grupo 3 √© de aproximadamente 0.0002. Isso indica que praticamente nenhuma varia√ß√£o no √≠ndice de felicidade pode ser explicada pelo PIB per capita para este grupo. O PIB per capita n√£o √© um fator relevante para explicar a felicidade neste grupo de pa√≠ses.

### 30 Pa√≠ses Selecionados
O coeficiente de determina√ß√£o (R¬≤) para os 30 pa√≠ses selecionados √© de aproximadamente 0.715. Isso indica que cerca de 71.5% da varia√ß√£o no √≠ndice de felicidade pode ser explicada pelo PIB per capita para este conjunto de pa√≠ses. H√° uma forte rela√ß√£o entre o PIB per capita e o √≠ndice de felicidade, sugerindo que o PIB per capita √© um fator importante na determina√ß√£o da felicidade para esses pa√≠ses.

</br>

___

</br>

# 7. Resumo dos Resultados

In [None]:
# Calcula a m√©dia do √≠ndice de felicidade para cada categoria de PIB nos tr√™s grupos
media_felicidade_grupo_1 = df_pib_felicidade_2023_grupo_1.groupby('PIB Categoria', observed=True)['Ladder score'].mean()
media_felicidade_grupo_2 = df_pib_felicidade_2023_grupo_2.groupby('PIB Categoria', observed=True)['Ladder score'].mean()
media_felicidade_grupo_3 = df_pib_felicidade_2023_grupo_3.groupby('PIB Categoria', observed=True)['Ladder score'].mean()

# Cria um DataFrame com as m√©dias para facilitar a plotagem
media_felicidade = pd.DataFrame({
    'Grupo 1': media_felicidade_grupo_1,
    'Grupo 2': media_felicidade_grupo_2,
    'Grupo 3': media_felicidade_grupo_3
}).reset_index()

# Define a largura das barras
bar_width = 0.25

# Define a posi√ß√£o das barras no eixo x
r1 = range(len(media_felicidade))
r2 = [x + bar_width for x in r1]
r3 = [x + bar_width for x in r2]

# Cria o gr√°fico de barras
plt.figure(figsize=(12, 6))
plt.bar(r1, media_felicidade['Grupo 1'], color='blue', width=bar_width, edgecolor='grey', label='Grupo 1')
plt.bar(r2, media_felicidade['Grupo 2'], color='green', width=bar_width, edgecolor='grey', label='Grupo 2')
plt.bar(r3, media_felicidade['Grupo 3'], color='red', width=bar_width, edgecolor='grey', label='Grupo 3')

# Adiciona t√≠tulo e r√≥tulos aos eixos
plt.title('M√©dia do √çndice de Felicidade por Categoria de PIB')
plt.xlabel('Categoria de PIB')
plt.ylabel('M√©dia do √çndice de Felicidade')
plt.xticks([r + bar_width for r in range(len(media_felicidade))], media_felicidade['PIB Categoria'])

# Adiciona uma legenda
plt.legend()

# Exibe o gr√°fico
plt.show()

In [None]:
# Calcula a m√©dia do √≠ndice de felicidade para cada categoria de PIB nos 30 pa√≠ses selecionados
media_felicidade_30_paises = df_pib_felicidade_2023_30_paises.groupby('PIB Categoria', observed=True)['Ladder score'].mean()

# Cria um DataFrame com as m√©dias para facilitar a plotagem
media_felicidade_30_paises_df = pd.DataFrame({
    'PIB Categoria': media_felicidade_30_paises.index,
    'M√©dia do √çndice de Felicidade': media_felicidade_30_paises.values
}).reset_index(drop=True)

# Define a largura das barras
bar_width = 0.5

# Cria o gr√°fico de barras
plt.figure(figsize=(10, 6))
plt.bar(media_felicidade_30_paises_df['PIB Categoria'], media_felicidade_30_paises_df['M√©dia do √çndice de Felicidade'], color=['blue', 'green', 'red'], width=bar_width, edgecolor='grey')

# Adiciona t√≠tulo e r√≥tulos aos eixos
plt.title('M√©dia do √çndice de Felicidade por Categoria de PIB (30 Pa√≠ses Selecionados)')
plt.xlabel('Categoria de PIB')
plt.ylabel('M√©dia do √çndice de Felicidade')

# Adiciona uma grade ao gr√°fico
plt.grid(True)

# Exibe o gr√°fico
plt.show()

### Correla√ß√µes
- **Grupo 1**: A correla√ß√£o de Pearson √© de -0.343, indicando uma correla√ß√£o negativa moderada entre o PIB per capita e o √≠ndice de felicidade. √Ä medida que o PIB per capita aumenta, o √≠ndice de felicidade tende a diminuir ligeiramente.
- **Grupo 2**: A correla√ß√£o de Pearson √© de 0.157, sugerindo uma correla√ß√£o positiva fraca entre o PIB per capita e o √≠ndice de felicidade. Um aumento no PIB per capita est√° associado a um pequeno aumento no √≠ndice de felicidade.
- **Grupo 3**: A correla√ß√£o de Pearson √© de -0.014, indicando uma correla√ß√£o praticamente inexistente entre o PIB per capita e o √≠ndice de felicidade. O PIB per capita n√£o parece ter uma rela√ß√£o significativa com o √≠ndice de felicidade.
- **30 Pa√≠ses Selecionados**: A correla√ß√£o de Pearson √© de 0.846, indicando uma forte correla√ß√£o positiva entre o PIB per capita e o √≠ndice de felicidade. Um aumento no PIB per capita est√° fortemente associado a um aumento no √≠ndice de felicidade.

### Coeficientes de Regress√£o Linear (ùõΩ1)
- **Grupo 1**: O coeficiente ùõΩ1 √© de aproximadamente -0.233, sugerindo que um maior PIB per capita est√° associado a uma leve diminui√ß√£o no √≠ndice de felicidade.
- **Grupo 2**: O coeficiente ùõΩ1 √© de aproximadamente 0.024, indicando uma rela√ß√£o fraca entre o PIB per capita e o √≠ndice de felicidade.
- **Grupo 3**: O coeficiente ùõΩ1 √© de aproximadamente -0.010, sugerindo que o PIB per capita n√£o tem um impacto significativo no √≠ndice de felicidade.
- **30 Pa√≠ses Selecionados**: O coeficiente ùõΩ1 √© de aproximadamente 1.024, indicando que um maior PIB per capita est√° fortemente associado a um aumento no √≠ndice de felicidade.

### Coeficientes de Determina√ß√£o (R¬≤)
- **Grupo 1**: O coeficiente de determina√ß√£o (R¬≤) √© de aproximadamente 0.118, indicando que cerca de 11.8% da varia√ß√£o no √≠ndice de felicidade pode ser explicada pelo PIB per capita.
- **Grupo 2**: O coeficiente de determina√ß√£o (R¬≤) √© de aproximadamente 0.025, sugerindo que apenas 2.5% da varia√ß√£o no √≠ndice de felicidade pode ser explicada pelo PIB per capita.
- **Grupo 3**: O coeficiente de determina√ß√£o (R¬≤) √© de aproximadamente 0.0002, indicando que praticamente nenhuma varia√ß√£o no √≠ndice de felicidade pode ser explicada pelo PIB per capita.
- **30 Pa√≠ses Selecionados**: O coeficiente de determina√ß√£o (R¬≤) √© de aproximadamente 0.715, indicando que cerca de 71.5% da varia√ß√£o no √≠ndice de felicidade pode ser explicada pelo PIB per capita.

## Limita√ß√µes

- **Fatores Adicionais**: A felicidade pode depender de muitos outros fatores al√©m do PIB per capita, como desigualdade de renda, educa√ß√£o, sa√∫de, seguran√ßa, cultura, entre outros.
- **Dados Limitados**: A an√°lise foi baseada em dados de um √∫nico ano. Resultados mais robustos poderiam ser obtidos com dados de m√∫ltiplos anos.
- **Grupos Pequenos**: A divis√£o dos pa√≠ses em tr√™s grupos pode ter limitado a capacidade de detectar rela√ß√µes mais sutis entre o PIB per capita e a felicidade.
- **Rela√ß√µes N√£o Lineares**: A an√°lise considerou apenas rela√ß√µes lineares. Rela√ß√µes n√£o lineares entre o PIB per capita e a felicidade podem existir e n√£o foram exploradas.

</br>

___

</br>

# 8. Pr√≥ximos Passos

- Usar dados de outros anos para verificar se os resultados s√£o consistentes.
- Considerar vari√°veis adicionais: desigualdade de renda, educa√ß√£o, sa√∫de e etc.
- Aprofundar an√°lises: Estudos comparativos regionais.

</br>

___

</br>