In [2]:
# instgalamos e importamos las librerías que necesitamos
!pip install pandas matplotlib
!pip install pandas matplotlib seaborn

# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Imputación de nulos usando métodos avanzados estadísticos
# -----------------------------------------------------------------------
from sklearn.impute import SimpleImputer
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
from sklearn.impute import KNNImputer

# Librerías de visualización
# -----------------------------------------------------------------------
import seaborn as sns
import matplotlib.pyplot as plt

# Evaluar linealidad de las relaciones entre las variables
# y la distribución de las variables
# ------------------------------------------------------------------------------
import scipy.stats as stats
from scipy.stats import chi2_contingency, ttest_ind
from scipy.stats import shapiro
from scipy.stats import levene
from scipy.stats import kruskal

# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

import warnings
warnings.filterwarnings("ignore")




[notice] A new release of pip is available: 24.0 -> 24.1.2
[notice] To update, run: python.exe -m pip install --upgrade pip






[notice] A new release of pip is available: 24.0 -> 24.1.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [20]:
# Cargar los csv como dataframes
df_2015 = pd.read_csv("World Happiness Report 2015.csv")
df_2016 = pd.read_csv("World Happiness Report 2016.csv")
df_2017 = pd.read_csv("World Happiness Report 2017.csv")
df_2018 = pd.read_csv("World Happiness Report 2018.csv")
df_2019 = pd.read_csv("World Happiness Report 2019.csv")
df_2020 = pd.read_csv("World Happiness Report 2020.csv")
df_2021 = pd.read_csv("World Happiness Report 2021.csv")
df_2022 = pd.read_csv("World Happiness Report 2022.csv")
df_2023 = pd.read_csv("World Happiness Report 2023.csv")

In [27]:
# Función para exploración general de datos
def exploracion_datos(df):
    print('_____________ INFORMACIÓN GENERAL DEL DATAFRAME ____________\n')
    print(df.info())
    
    print('___________________ FORMA DEL DATAFRAME ____________________\n')
    print(f"El número de filas que tenemos es de {df.shape[0]}.\nEl número de columnas es de {df.shape[1]}\n")
    
    print('_______________ NULOS, ÚNICOS Y DUPLICADOS _________________\n')
    print('La cantidad de valores NULOS por columna es de:\n')
    print(df.isnull().sum())
    print('____________________________________________________________\n')

    print('El porcentaje de valores NULOS por columna es de:\n')
    porcentaje_nulos = (df.isnull().sum() / df.shape[0]) * 100
    porcentaje_nulos = porcentaje_nulos.round(2)
    print(porcentaje_nulos)
    print('____________________________________________________________\n')

    print('La cantidad de valores ÚNICOS por columna es de:\n')
    for columna in df.columns:
        cantidad_unicos = df[columna].nunique()
        print(f'La columna {columna} tiene {cantidad_unicos} valores únicos.')
    print('____________________________________________________________\n')

    print('La cantidad de valores DUPLICADOS por columna es de:\n')
    for columna in df.columns:
        cantidad_duplicados = df.duplicated(subset=columna).sum()
        print(f'La columna {columna} tiene {cantidad_duplicados} valores duplicados.')
    print('____________________________________________________________\n')
    
    print('____________________ RESUMEN ESTADÍSTICO ____________________\n')
    print('___________________ Variables Numéricas _____________________\n')
    if df.select_dtypes(include=[float, int]).empty:
        print("No hay variables numéricas para mostrar el resumen estadístico.")
    else:
        print(df.describe().T)
    print('____________________________________________________________\n')
    print('___________________ Variables Categóricas _____________________\n')
    if df.select_dtypes(include=[object]).empty:
        print("No hay variables categóricas para mostrar el resumen estadístico.")
    else:
        print('__________________ Variables Categóricas ____________________\n')
        print(df.describe(include='object').T)

In [28]:
exploracion_datos(df_2015)

_____________ INFORMACIÓN GENERAL DEL DATAFRAME ____________

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 158 entries, 0 to 157
Data columns (total 12 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   Country                        158 non-null    object 
 1   Region                         158 non-null    object 
 2   Happiness Rank                 158 non-null    int64  
 3   Happiness Score                158 non-null    float64
 4   Standard Error                 158 non-null    float64
 5   Economy (GDP per Capita)       158 non-null    float64
 6   Family                         158 non-null    float64
 7   Health (Life Expectancy)       158 non-null    float64
 8   Freedom                        158 non-null    float64
 9   Trust (Government Corruption)  158 non-null    float64
 10  Generosity                     158 non-null    float64
 11  Dystopia Residual              158 non-null    f

In [34]:
exploracion_datos(df_2016)

_____________ INFORMACIÓN GENERAL DEL DATAFRAME ____________

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 157 entries, 0 to 156
Data columns (total 13 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   Country                        157 non-null    object 
 1   Region                         157 non-null    object 
 2   Happiness Rank                 157 non-null    int64  
 3   Happiness Score                157 non-null    float64
 4   Lower Confidence Interval      157 non-null    float64
 5   Upper Confidence Interval      157 non-null    float64
 6   Economy (GDP per Capita)       157 non-null    float64
 7   Family                         157 non-null    float64
 8   Health (Life Expectancy)       157 non-null    float64
 9   Freedom                        157 non-null    float64
 10  Trust (Government Corruption)  157 non-null    float64
 11  Generosity                     157 non-null    f

In [35]:
exploracion_datos(df_2017)

_____________ INFORMACIÓN GENERAL DEL DATAFRAME ____________

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 155 entries, 0 to 154
Data columns (total 12 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   Country                        155 non-null    object 
 1   Happiness.Rank                 155 non-null    int64  
 2   Happiness.Score                155 non-null    float64
 3   Whisker.high                   155 non-null    float64
 4   Whisker.low                    155 non-null    float64
 5   Economy..GDP.per.Capita.       155 non-null    float64
 6   Family                         155 non-null    float64
 7   Health..Life.Expectancy.       155 non-null    float64
 8   Freedom                        155 non-null    float64
 9   Generosity                     155 non-null    float64
 10  Trust..Government.Corruption.  155 non-null    float64
 11  Dystopia.Residual              155 non-null    f

In [36]:
exploracion_datos(df_2018)

_____________ INFORMACIÓN GENERAL DEL DATAFRAME ____________

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 156 entries, 0 to 155
Data columns (total 9 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Overall rank                  156 non-null    int64  
 1   Country or region             156 non-null    object 
 2   Score                         156 non-null    float64
 3   GDP per capita                156 non-null    float64
 4   Social support                156 non-null    float64
 5   Healthy life expectancy       156 non-null    float64
 6   Freedom to make life choices  156 non-null    float64
 7   Generosity                    156 non-null    float64
 8   Perceptions of corruption     155 non-null    float64
dtypes: float64(7), int64(1), object(1)
memory usage: 11.1+ KB
None
___________________ FORMA DEL DATAFRAME ____________________

El número de filas que tenemos es de 156.
El número de 

In [37]:
exploracion_datos(df_2019)

_____________ INFORMACIÓN GENERAL DEL DATAFRAME ____________

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 156 entries, 0 to 155
Data columns (total 9 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Overall rank                  156 non-null    int64  
 1   Country or region             156 non-null    object 
 2   Score                         156 non-null    float64
 3   GDP per capita                156 non-null    float64
 4   Social support                156 non-null    float64
 5   Healthy life expectancy       156 non-null    float64
 6   Freedom to make life choices  156 non-null    float64
 7   Generosity                    156 non-null    float64
 8   Perceptions of corruption     156 non-null    float64
dtypes: float64(7), int64(1), object(1)
memory usage: 11.1+ KB
None
___________________ FORMA DEL DATAFRAME ____________________

El número de filas que tenemos es de 156.
El número de 

In [38]:
exploracion_datos(df_2020)

_____________ INFORMACIÓN GENERAL DEL DATAFRAME ____________

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 153 entries, 0 to 152
Data columns (total 20 columns):
 #   Column                                      Non-Null Count  Dtype  
---  ------                                      --------------  -----  
 0   Country name                                153 non-null    object 
 1   Regional indicator                          153 non-null    object 
 2   Ladder score                                153 non-null    float64
 3   Standard error of ladder score              153 non-null    float64
 4   upperwhisker                                153 non-null    float64
 5   lowerwhisker                                153 non-null    float64
 6   Logged GDP per capita                       153 non-null    float64
 7   Social support                              153 non-null    float64
 8   Healthy life expectancy                     153 non-null    float64
 9   Freedom to make life choi

In [39]:
exploracion_datos(df_2021)

_____________ INFORMACIÓN GENERAL DEL DATAFRAME ____________

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 149 entries, 0 to 148
Data columns (total 20 columns):
 #   Column                                      Non-Null Count  Dtype  
---  ------                                      --------------  -----  
 0   Country name                                149 non-null    object 
 1   Regional indicator                          149 non-null    object 
 2   Ladder score                                149 non-null    float64
 3   Standard error of ladder score              149 non-null    float64
 4   upperwhisker                                149 non-null    float64
 5   lowerwhisker                                149 non-null    float64
 6   Logged GDP per capita                       149 non-null    float64
 7   Social support                              149 non-null    float64
 8   Healthy life expectancy                     149 non-null    float64
 9   Freedom to make life choi

In [40]:
exploracion_datos(df_2022)

_____________ INFORMACIÓN GENERAL DEL DATAFRAME ____________

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 146 entries, 0 to 145
Data columns (total 12 columns):
 #   Column                                      Non-Null Count  Dtype  
---  ------                                      --------------  -----  
 0   RANK                                        146 non-null    int64  
 1   Country                                     146 non-null    object 
 2   Happiness score                             146 non-null    float64
 3   Whisker-high                                146 non-null    float64
 4   Whisker-low                                 146 non-null    float64
 5   Dystopia (1.83) + residual                  146 non-null    float64
 6   Explained by: GDP per capita                146 non-null    float64
 7   Explained by: Social support                146 non-null    float64
 8   Explained by: Healthy life expectancy       146 non-null    float64
 9   Explained by: Freedom to 

In [41]:
exploracion_datos(df_2023)

_____________ INFORMACIÓN GENERAL DEL DATAFRAME ____________

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 137 entries, 0 to 136
Data columns (total 19 columns):
 #   Column                                      Non-Null Count  Dtype  
---  ------                                      --------------  -----  
 0   Country name                                137 non-null    object 
 1   Ladder score                                137 non-null    float64
 2   Standard error of ladder score              137 non-null    float64
 3   upperwhisker                                137 non-null    float64
 4   lowerwhisker                                137 non-null    float64
 5   Logged GDP per capita                       137 non-null    float64
 6   Social support                              137 non-null    float64
 7   Healthy life expectancy                     136 non-null    float64
 8   Freedom to make life choices                137 non-null    float64
 9   Generosity               

In [42]:
# Función para chequear si hay valores negativos en las columnas numéricas
def neg_values(df):
    neg_counts = {}

    for column in df.columns:
        if pd.api.types.is_numeric_dtype(df[column]):
            neg_counts[column] = (df[column] < 0).sum()

    return neg_counts


# Llamar a la función para contar valores negativos
neg_counts_2015 = neg_values(df_2015)

# Mostrar los resultados
print("Número de valores negativos por columna:")
for column, count in neg_counts.items():
    print(f"Columna '{column}': {count} valores negativos")

Número de valores negativos por columna:
Columna 'Happiness Rank': 0 valores negativos
Columna 'Happiness Score': 0 valores negativos
Columna 'Standard Error': 0 valores negativos
Columna 'Economy (GDP per Capita)': 0 valores negativos
Columna 'Family': 0 valores negativos
Columna 'Health (Life Expectancy)': 0 valores negativos
Columna 'Freedom': 0 valores negativos
Columna 'Trust (Government Corruption)': 0 valores negativos
Columna 'Generosity': 0 valores negativos
Columna 'Dystopia Residual': 0 valores negativos


In [45]:
# Llamar a la función para contar valores negativos
neg_counts_2016 = neg_values(df_2016)

# Mostrar los resultados
print("Número de valores negativos por columna:")
for column, count in neg_counts_2016.items():
    print(f"Columna '{column}': {count} valores negativos")

Número de valores negativos por columna:
Columna 'Happiness Rank': 0 valores negativos
Columna 'Happiness Score': 0 valores negativos
Columna 'Lower Confidence Interval': 0 valores negativos
Columna 'Upper Confidence Interval': 0 valores negativos
Columna 'Economy (GDP per Capita)': 0 valores negativos
Columna 'Family': 0 valores negativos
Columna 'Health (Life Expectancy)': 0 valores negativos
Columna 'Freedom': 0 valores negativos
Columna 'Trust (Government Corruption)': 0 valores negativos
Columna 'Generosity': 0 valores negativos
Columna 'Dystopia Residual': 0 valores negativos


In [46]:
# Llamar a la función para contar valores negativos
neg_counts_2017 = neg_values(df_2017)

# Mostrar los resultados
print("Número de valores negativos por columna:")
for column, count in neg_counts_2017.items():
    print(f"Columna '{column}': {count} valores negativos")

Número de valores negativos por columna:
Columna 'Happiness.Rank': 0 valores negativos
Columna 'Happiness.Score': 0 valores negativos
Columna 'Whisker.high': 0 valores negativos
Columna 'Whisker.low': 0 valores negativos
Columna 'Economy..GDP.per.Capita.': 0 valores negativos
Columna 'Family': 0 valores negativos
Columna 'Health..Life.Expectancy.': 0 valores negativos
Columna 'Freedom': 0 valores negativos
Columna 'Generosity': 0 valores negativos
Columna 'Trust..Government.Corruption.': 0 valores negativos
Columna 'Dystopia.Residual': 0 valores negativos


In [48]:
# Llamar a la función para contar valores negativos
neg_counts_2018 = neg_values(df_2018)

# Mostrar los resultados
print("Número de valores negativos por columna:")
for column, count in neg_counts_2018.items():
    print(f"Columna '{column}': {count} valores negativos")

Número de valores negativos por columna:
Columna 'Overall rank': 0 valores negativos
Columna 'Score': 0 valores negativos
Columna 'GDP per capita': 0 valores negativos
Columna 'Social support': 0 valores negativos
Columna 'Healthy life expectancy': 0 valores negativos
Columna 'Freedom to make life choices': 0 valores negativos
Columna 'Generosity': 0 valores negativos
Columna 'Perceptions of corruption': 0 valores negativos


In [49]:
# Llamar a la función para contar valores negativos
neg_counts_2019 = neg_values(df_2019)

# Mostrar los resultados
print("Número de valores negativos por columna:")
for column, count in neg_counts_2019.items():
    print(f"Columna '{column}': {count} valores negativos")

Número de valores negativos por columna:
Columna 'Overall rank': 0 valores negativos
Columna 'Score': 0 valores negativos
Columna 'GDP per capita': 0 valores negativos
Columna 'Social support': 0 valores negativos
Columna 'Healthy life expectancy': 0 valores negativos
Columna 'Freedom to make life choices': 0 valores negativos
Columna 'Generosity': 0 valores negativos
Columna 'Perceptions of corruption': 0 valores negativos


In [50]:
# Llamar a la función para contar valores negativos
neg_counts_2020 = neg_values(df_2020)

# Mostrar los resultados
print("Número de valores negativos por columna:")
for column, count in neg_counts_2020.items():
    print(f"Columna '{column}': {count} valores negativos")

Número de valores negativos por columna:
Columna 'Ladder score': 0 valores negativos
Columna 'Standard error of ladder score': 0 valores negativos
Columna 'upperwhisker': 0 valores negativos
Columna 'lowerwhisker': 0 valores negativos
Columna 'Logged GDP per capita': 0 valores negativos
Columna 'Social support': 0 valores negativos
Columna 'Healthy life expectancy': 0 valores negativos
Columna 'Freedom to make life choices': 0 valores negativos
Columna 'Generosity': 87 valores negativos
Columna 'Perceptions of corruption': 0 valores negativos
Columna 'Ladder score in Dystopia': 0 valores negativos
Columna 'Explained by: Log GDP per capita': 0 valores negativos
Columna 'Explained by: Social support': 0 valores negativos
Columna 'Explained by: Healthy life expectancy': 0 valores negativos
Columna 'Explained by: Freedom to make life choices': 0 valores negativos
Columna 'Explained by: Generosity': 0 valores negativos
Columna 'Explained by: Perceptions of corruption': 0 valores negativos
C

In [51]:
# Llamar a la función para contar valores negativos
neg_counts_2021 = neg_values(df_2021)

# Mostrar los resultados
print("Número de valores negativos por columna:")
for column, count in neg_counts_2021.items():
    print(f"Columna '{column}': {count} valores negativos")

Número de valores negativos por columna:
Columna 'Ladder score': 0 valores negativos
Columna 'Standard error of ladder score': 0 valores negativos
Columna 'upperwhisker': 0 valores negativos
Columna 'lowerwhisker': 0 valores negativos
Columna 'Logged GDP per capita': 0 valores negativos
Columna 'Social support': 0 valores negativos
Columna 'Healthy life expectancy': 0 valores negativos
Columna 'Freedom to make life choices': 0 valores negativos
Columna 'Generosity': 86 valores negativos
Columna 'Perceptions of corruption': 0 valores negativos
Columna 'Ladder score in Dystopia': 0 valores negativos
Columna 'Explained by: Log GDP per capita': 0 valores negativos
Columna 'Explained by: Social support': 0 valores negativos
Columna 'Explained by: Healthy life expectancy': 0 valores negativos
Columna 'Explained by: Freedom to make life choices': 0 valores negativos
Columna 'Explained by: Generosity': 0 valores negativos
Columna 'Explained by: Perceptions of corruption': 0 valores negativos
C

In [52]:
# Llamar a la función para contar valores negativos
neg_counts_2022 = neg_values(df_2022)

# Mostrar los resultados
print("Número de valores negativos por columna:")
for column, count in neg_counts_2022.items():
    print(f"Columna '{column}': {count} valores negativos")

Número de valores negativos por columna:
Columna 'RANK': 0 valores negativos
Columna 'Happiness score': 0 valores negativos
Columna 'Whisker-high': 0 valores negativos
Columna 'Whisker-low': 0 valores negativos
Columna 'Dystopia (1.83) + residual': 0 valores negativos
Columna 'Explained by: GDP per capita': 0 valores negativos
Columna 'Explained by: Social support': 0 valores negativos
Columna 'Explained by: Healthy life expectancy': 0 valores negativos
Columna 'Explained by: Freedom to make life choices': 0 valores negativos
Columna 'Explained by: Generosity': 0 valores negativos
Columna 'Explained by: Perceptions of corruption': 0 valores negativos


In [53]:
# Llamar a la función para contar valores negativos
neg_counts_2023 = neg_values(df_2023)

# Mostrar los resultados
print("Número de valores negativos por columna:")
for column, count in neg_counts_2023.items():
    print(f"Columna '{column}': {count} valores negativos")

Número de valores negativos por columna:
Columna 'Ladder score': 0 valores negativos
Columna 'Standard error of ladder score': 0 valores negativos
Columna 'upperwhisker': 0 valores negativos
Columna 'lowerwhisker': 0 valores negativos
Columna 'Logged GDP per capita': 0 valores negativos
Columna 'Social support': 0 valores negativos
Columna 'Healthy life expectancy': 0 valores negativos
Columna 'Freedom to make life choices': 0 valores negativos
Columna 'Generosity': 67 valores negativos
Columna 'Perceptions of corruption': 0 valores negativos
Columna 'Ladder score in Dystopia': 0 valores negativos
Columna 'Explained by: Log GDP per capita': 0 valores negativos
Columna 'Explained by: Social support': 0 valores negativos
Columna 'Explained by: Healthy life expectancy': 0 valores negativos
Columna 'Explained by: Freedom to make life choices': 0 valores negativos
Columna 'Explained by: Generosity': 0 valores negativos
Columna 'Explained by: Perceptions of corruption': 0 valores negativos
C

In [56]:
df_2015.columns

Index(['Country', 'Region', 'Happiness Rank', 'Happiness Score',
       'Standard Error', 'Economy (GDP per Capita)', 'Family',
       'Health (Life Expectancy)', 'Freedom', 'Trust (Government Corruption)',
       'Generosity', 'Dystopia Residual'],
      dtype='object')

In [57]:
df_2016.columns

Index(['Country', 'Region', 'Happiness Rank', 'Happiness Score',
       'Lower Confidence Interval', 'Upper Confidence Interval',
       'Economy (GDP per Capita)', 'Family', 'Health (Life Expectancy)',
       'Freedom', 'Trust (Government Corruption)', 'Generosity',
       'Dystopia Residual'],
      dtype='object')

In [58]:
df_2017.columns

Index(['Country', 'Happiness.Rank', 'Happiness.Score', 'Whisker.high',
       'Whisker.low', 'Economy..GDP.per.Capita.', 'Family',
       'Health..Life.Expectancy.', 'Freedom', 'Generosity',
       'Trust..Government.Corruption.', 'Dystopia.Residual'],
      dtype='object')

In [59]:
df_2018.columns

Index(['Overall rank', 'Country or region', 'Score', 'GDP per capita',
       'Social support', 'Healthy life expectancy',
       'Freedom to make life choices', 'Generosity',
       'Perceptions of corruption'],
      dtype='object')

In [60]:
df_2019.columns

Index(['Overall rank', 'Country or region', 'Score', 'GDP per capita',
       'Social support', 'Healthy life expectancy',
       'Freedom to make life choices', 'Generosity',
       'Perceptions of corruption'],
      dtype='object')

In [61]:
df_2020.columns

Index(['Country name', 'Regional indicator', 'Ladder score',
       'Standard error of ladder score', 'upperwhisker', 'lowerwhisker',
       'Logged GDP per capita', 'Social support', 'Healthy life expectancy',
       'Freedom to make life choices', 'Generosity',
       'Perceptions of corruption', 'Ladder score in Dystopia',
       'Explained by: Log GDP per capita', 'Explained by: Social support',
       'Explained by: Healthy life expectancy',
       'Explained by: Freedom to make life choices',
       'Explained by: Generosity', 'Explained by: Perceptions of corruption',
       'Dystopia + residual'],
      dtype='object')

In [62]:
df_2021.columns

Index(['Country name', 'Regional indicator', 'Ladder score',
       'Standard error of ladder score', 'upperwhisker', 'lowerwhisker',
       'Logged GDP per capita', 'Social support', 'Healthy life expectancy',
       'Freedom to make life choices', 'Generosity',
       'Perceptions of corruption', 'Ladder score in Dystopia',
       'Explained by: Log GDP per capita', 'Explained by: Social support',
       'Explained by: Healthy life expectancy',
       'Explained by: Freedom to make life choices',
       'Explained by: Generosity', 'Explained by: Perceptions of corruption',
       'Dystopia + residual'],
      dtype='object')

In [63]:
df_2022.columns

Index(['RANK', 'Country', 'Happiness score', 'Whisker-high', 'Whisker-low',
       'Dystopia (1.83) + residual', 'Explained by: GDP per capita',
       'Explained by: Social support', 'Explained by: Healthy life expectancy',
       'Explained by: Freedom to make life choices',
       'Explained by: Generosity', 'Explained by: Perceptions of corruption'],
      dtype='object')

In [64]:
df_2023.columns

Index(['Country name', 'Ladder score', 'Standard error of ladder score',
       'upperwhisker', 'lowerwhisker', 'Logged GDP per capita',
       'Social support', 'Healthy life expectancy',
       'Freedom to make life choices', 'Generosity',
       'Perceptions of corruption', 'Ladder score in Dystopia',
       'Explained by: Log GDP per capita', 'Explained by: Social support',
       'Explained by: Healthy life expectancy',
       'Explained by: Freedom to make life choices',
       'Explained by: Generosity', 'Explained by: Perceptions of corruption',
       'Dystopia + residual'],
      dtype='object')

In [66]:
# Función para estandarizar nombres de columnas
def estandarizar_columnas(df):
    columnas = {
        'Country': 'Country',
        'Country name': 'Country',
        'Country or region': 'Country',
        'Regional indicator': 'Region',
        'Region': 'Region',
        'Happiness Rank': 'Happiness Rank',
        'Overall rank': 'Happiness Rank',
        'RANK': 'Happiness Rank',
        'Happiness Score': 'Happiness Score',
        'Score': 'Happiness Score',
        'Ladder score': 'Happiness Score',
        'Standard Error': 'Standard Error',
        'Standard error of ladder score': 'Standard Error',
        'Economy (GDP per Capita)': 'Economy (GDP per Capita)',
        'Logged GDP per capita': 'Economy (GDP per Capita)',
        'GDP per capita': 'Economy (GDP per Capita)',
        'Economy..GDP.per.Capita.': 'Economy (GDP per Capita)',
        'Family': 'Family',
        'Social support': 'Family',
        'Health (Life Expectancy)': 'Health (Life Expectancy)',
        'Healthy life expectancy': 'Health (Life Expectancy)',
        'Health..Life.Expectancy.': 'Health (Life Expectancy)',
        'Freedom': 'Freedom',
        'Freedom to make life choices': 'Freedom',
        'Trust (Government Corruption)': 'Trust (Government Corruption)',
        'Perceptions of corruption': 'Trust (Government Corruption)',
        'Trust..Government.Corruption.': 'Trust (Government Corruption)',
        'Generosity': 'Generosity',
        'Dystopia Residual': 'Dystopia Residual',
        'Dystopia + residual': 'Dystopia Residual',
        'Dystopia (1.83) + residual': 'Dystopia Residual',
        'Ladder score in Dystopia': 'Dystopia Residual',
        'Lower Confidence Interval': 'Lower Confidence Interval',
        'Upper Confidence Interval': 'Upper Confidence Interval',
        'Whisker.low': 'Lower Confidence Interval',
        'lowerwhisker': 'Lower Confidence Interval',
        'Whisker.high': 'Upper Confidence Interval',
        'upperwhisker': 'Upper Confidence Interval',
        'Explained by: Log GDP per capita': 'Economy (GDP per Capita)',
        'Explained by: Social support': 'Family',
        'Explained by: Healthy life expectancy': 'Health (Life Expectancy)',
        'Explained by: Freedom to make life choices': 'Freedom',
        'Explained by: Generosity': 'Generosity',
        'Explained by: Perceptions of corruption': 'Trust (Government Corruption)',
    }
    return df.rename(columns=columnas)


In [67]:
# Suponiendo que los DataFrames se llaman df_2015, df_2016, ..., df_2023
dataframes = [df_2015, df_2016, df_2017, df_2018, df_2019, df_2020, df_2021, df_2022, df_2023]

# Estandarizar columnas
dataframes = [estandarizar_columnas(df) for df in dataframes]

In [74]:
df_2015.columns

Index(['Country', 'Happiness.Rank', 'Happiness.Score', 'Whisker.high',
       'Whisker.low', 'Economy..GDP.per.Capita.', 'Family',
       'Health..Life.Expectancy.', 'Freedom', 'Generosity',
       'Trust..Government.Corruption.', 'Dystopia.Residual'],
      dtype='object')

In [None]:
drop_col_2015 = ['Whisker.high', 'Whisker.low', 'Dystopia.Residual']

In [75]:
df_2016.columns

Index(['Country', 'Region', 'Happiness Rank', 'Happiness Score',
       'Lower Confidence Interval', 'Upper Confidence Interval',
       'Economy (GDP per Capita)', 'Family', 'Health (Life Expectancy)',
       'Freedom', 'Trust (Government Corruption)', 'Generosity',
       'Dystopia Residual'],
      dtype='object')

In [None]:
drop_col_2016 = ['Lower Confidence Interval', 'Upper Confidence Interval', 'Dystopia Residual']

In [None]:
# Combinar los DataFrames
df_combined = pd.concat(dataframes, ignore_index=True)

# Guardar el DataFrame combinado
df_combined.to_csv('happiness_combined.csv', index=False)

df_combined.head()