# Felicidad Dataset

## Importamos las librerías

In [51]:
import pandas as pd
import matplotlib.pyplot as plt

## Cargamos los datasets

In [3]:
df_2015 = pd.read_csv('./2015.csv')
df_2016 = pd.read_csv('./2016.csv')
df_2017 = pd.read_csv('./2017.csv')
df_2018 = pd.read_csv('./2018.csv')
df_2019 = pd.read_csv('./2019.csv')

## Adaptar los datos

In [19]:
df_2015.rename(columns={'Happiness Score': 'Score'}, inplace=True)
df_2016.rename(columns={'Happiness Score': 'Score'}, inplace=True)
df_2017.rename(columns={'Happiness.Score': 'Score'}, inplace=True)

In [24]:
df_2015.rename(columns={'Economy (GDP per Capita)': 'PIB'}, inplace=True)
df_2016.rename(columns={'Economy (GDP per Capita)': 'PIB'}, inplace=True)
df_2017.rename(columns={'Economy..GDP.per.Capita.': 'PIB'}, inplace=True)
df_2018.rename(columns={'GDP per capita': 'PIB'}, inplace=True)
df_2019.rename(columns={'GDP per capita': 'PIB'}, inplace=True)

In [27]:
df_2015['Year'] = 2015
df_2016['Year'] = 2016
df_2017['Year'] = 2017
df_2018['Year'] = 2018
df_2019['Year'] = 2019

## Juntamos los datasets en uno solo

In [28]:
df = pd.concat([df_2015, df_2016, df_2017, df_2018, df_2019], ignore_index=True)

In [29]:
df.head()

Unnamed: 0,Country,Region,Happiness Rank,Score,Standard Error,PIB,Family,Health (Life Expectancy),Freedom,Trust (Government Corruption),...,Whisker.low,Health..Life.Expectancy.,Trust..Government.Corruption.,Dystopia.Residual,Overall rank,Country or region,Social support,Healthy life expectancy,Freedom to make life choices,Perceptions of corruption
0,Switzerland,Western Europe,1.0,7.587,0.03411,1.39651,1.34951,0.94143,0.66557,0.41978,...,,,,,,,,,,
1,Iceland,Western Europe,2.0,7.561,0.04884,1.30232,1.40223,0.94784,0.62877,0.14145,...,,,,,,,,,,
2,Denmark,Western Europe,3.0,7.527,0.03328,1.32548,1.36058,0.87464,0.64938,0.48357,...,,,,,,,,,,
3,Norway,Western Europe,4.0,7.522,0.0388,1.459,1.33095,0.88521,0.66973,0.36503,...,,,,,,,,,,
4,Canada,North America,5.0,7.427,0.03553,1.32629,1.32261,0.90563,0.63297,0.32957,...,,,,,,,,,,


## Promedio de felicidad global por año

In [53]:
df.groupby('Year')['Score'].mean()

Year
2015    5.375734
2016    5.382185
2017    5.354019
2018    5.375917
2019    5.407096
Name: Score, dtype: float64

## Correlación entre PIB y Nivel de Felicidad

In [37]:
df.groupby('Year')['PIB'].corr(df['Score'])

Year
2015    0.780966
2016    0.790322
2017    0.812469
2018    0.802124
2019    0.793883
Name: PIB, dtype: float64

In [54]:
# Creamos un diccionario para almacenar las correlaciones de cada país
correlaciones_pais = {}

# Iteramos sobre cada país en el DataFrame
for pais, datos_pais in df.groupby('Country'):
    # Calculamos la correlación entre el PIB y el Score para el país actual
    correlacion = datos_pais['PIB'].corr(datos_pais['Score'])
    # Almacenamos la correlación en el diccionario
    correlaciones_pais[pais] = correlacion

# Convertimos el diccionario en un DataFrame para visualizarlo mejor
df_correlaciones = pd.DataFrame(list(correlaciones_pais.items()), columns=['Country', 'Correlation PIB-Felicidad'])
df_correlaciones.head()


  c /= stddev[:, None]
  c /= stddev[None, :]
  c = cov(x, y, rowvar, dtype=dtype)
  c *= np.true_divide(1, fact)
  c *= np.true_divide(1, fact)


Unnamed: 0,Country,Correlation PIB-Felicidad
0,Afghanistan,0.23012
1,Albania,-0.949539
2,Algeria,0.591113
3,Angola,-0.981264
4,Argentina,0.566038


In [56]:
from scipy.stats import linregress

# Seleccionamos algunos países para graficar
paises_seleccionados = ['Norway', 'Denmark', 'Switzerland', 'Iceland', 'Finland']

# Creamos una figura y un conjunto de ejes
plt.figure(figsize=(12, 8))

# Iteramos sobre cada país seleccionado
for pais in paises_seleccionados:
    datos_pais = df[df['Country'] == pais]
    plt.scatter(datos_pais['PIB'], datos_pais['Score'], label=pais)  # Puntos de cada país
    
    # Ajustamos una regresión lineal y calculamos la pendiente e intercepción
    if len(datos_pais) > 1:  # Aseguramos tener más de un dato para la regresión
        slope, intercept, r_value, p_value, std_err = linregress(datos_pais['PIB'], datos_pais['Score'])
        # Calculamos los valores de la línea de tendencia
        plt.plot(datos_pais['PIB'], intercept + slope * datos_pais['PIB'], linestyle='--')

# Añadimos título y etiquetas
plt.title('Relación entre PIB y Felicidad con Línea de Tendencia')
plt.xlabel('PIB per Capita')
plt.ylabel('Nivel de Felicidad (Score)')
plt.legend(title='Países')
plt.grid(True)

# Mostramos el gráfico
plt.show()


ModuleNotFoundError: No module named 'scipy'