In [1]:
# instgalamos e importamos las librerías que necesitamos
!pip install pandas matplotlib
!pip install pandas matplotlib seaborn

# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Imputación de nulos usando métodos avanzados estadísticos
# -----------------------------------------------------------------------
from sklearn.impute import SimpleImputer
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
from sklearn.impute import KNNImputer

# Librerías de visualización
# -----------------------------------------------------------------------
import seaborn as sns
import matplotlib.pyplot as plt

# Evaluar linealidad de las relaciones entre las variables
# y la distribución de las variables
# ------------------------------------------------------------------------------
import scipy.stats as stats
from scipy.stats import chi2_contingency, ttest_ind
from scipy.stats import shapiro
from scipy.stats import levene
from scipy.stats import kruskal

# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

import warnings
warnings.filterwarnings("ignore")


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.1.1[0m[39;49m -> [0m[32;49m24.1.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.1.1[0m[39;49m -> [0m[32;49m24.1.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [6]:
# Cargar los csv como dataframes
df_2015 = pd.read_csv("dataset/World Happiness Report 2015.csv")
df_2016 = pd.read_csv("dataset/World Happiness Report 2016.csv")
df_2017 = pd.read_csv("dataset/World Happiness Report 2017.csv")
df_2018 = pd.read_csv("dataset/World Happiness Report 2018.csv")
df_2019 = pd.read_csv("dataset/World Happiness Report 2019.csv")
df_2020 = pd.read_csv("dataset/World Happiness Report 2020.csv")
df_2021 = pd.read_csv("dataset/World Happiness Report 2021.csv")
df_2022 = pd.read_csv("dataset/World Happiness Report 2022.csv")
df_2023 = pd.read_csv("dataset/World Happiness Report 2023.csv")

In [3]:
# Función para exploración general de datos
def exploracion_datos(df):
    print('_____________ INFORMACIÓN GENERAL DEL DATAFRAME ____________\n')
    print(df.info())
    
    print('___________________ FORMA DEL DATAFRAME ____________________\n')
    print(f"El número de filas que tenemos es de {df.shape[0]}.\nEl número de columnas es de {df.shape[1]}\n")
    
    print('_______________ NULOS, ÚNICOS Y DUPLICADOS _________________\n')
    print('La cantidad de valores NULOS por columna es de:\n')
    print(df.isnull().sum())
    print('____________________________________________________________\n')

    print('El porcentaje de valores NULOS por columna es de:\n')
    porcentaje_nulos = (df.isnull().sum() / df.shape[0]) * 100
    porcentaje_nulos = porcentaje_nulos.round(2)
    print(porcentaje_nulos)
    print('____________________________________________________________\n')

    print('La cantidad de valores ÚNICOS por columna es de:\n')
    for columna in df.columns:
        cantidad_unicos = df[columna].nunique()
        print(f'La columna {columna} tiene {cantidad_unicos} valores únicos.')
    print('____________________________________________________________\n')

    print('La cantidad de valores DUPLICADOS por columna es de:\n')
    for columna in df.columns:
        cantidad_duplicados = df.duplicated(subset=columna).sum()
        print(f'La columna {columna} tiene {cantidad_duplicados} valores duplicados.')
    print('____________________________________________________________\n')
    
    print('____________________ RESUMEN ESTADÍSTICO ____________________\n')
    print('___________________ Variables Numéricas _____________________\n')
    if df.select_dtypes(include=[float, int]).empty:
        print("No hay variables numéricas para mostrar el resumen estadístico.")
    else:
        print(df.describe().T)
    print('____________________________________________________________\n')
    print('___________________ Variables Categóricas _____________________\n')
    if df.select_dtypes(include=[object]).empty:
        print("No hay variables categóricas para mostrar el resumen estadístico.")
    else:
        print('__________________ Variables Categóricas ____________________\n')
        print(df.describe(include='object').T)

In [4]:
exploracion_datos(df_2015)

_____________ INFORMACIÓN GENERAL DEL DATAFRAME ____________

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 158 entries, 0 to 157
Data columns (total 12 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   Country                        158 non-null    object 
 1   Region                         158 non-null    object 
 2   Happiness Rank                 158 non-null    int64  
 3   Happiness Score                158 non-null    float64
 4   Standard Error                 158 non-null    float64
 5   Economy (GDP per Capita)       158 non-null    float64
 6   Family                         158 non-null    float64
 7   Health (Life Expectancy)       158 non-null    float64
 8   Freedom                        158 non-null    float64
 9   Trust (Government Corruption)  158 non-null    float64
 10  Generosity                     158 non-null    float64
 11  Dystopia Residual              158 non-null    f

In [5]:
exploracion_datos(df_2016)

_____________ INFORMACIÓN GENERAL DEL DATAFRAME ____________

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 157 entries, 0 to 156
Data columns (total 13 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   Country                        157 non-null    object 
 1   Region                         157 non-null    object 
 2   Happiness Rank                 157 non-null    int64  
 3   Happiness Score                157 non-null    float64
 4   Lower Confidence Interval      157 non-null    float64
 5   Upper Confidence Interval      157 non-null    float64
 6   Economy (GDP per Capita)       157 non-null    float64
 7   Family                         157 non-null    float64
 8   Health (Life Expectancy)       157 non-null    float64
 9   Freedom                        157 non-null    float64
 10  Trust (Government Corruption)  157 non-null    float64
 11  Generosity                     157 non-null    f

In [6]:
exploracion_datos(df_2017)

_____________ INFORMACIÓN GENERAL DEL DATAFRAME ____________

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 155 entries, 0 to 154
Data columns (total 12 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   Country                        155 non-null    object 
 1   Happiness.Rank                 155 non-null    int64  
 2   Happiness.Score                155 non-null    float64
 3   Whisker.high                   155 non-null    float64
 4   Whisker.low                    155 non-null    float64
 5   Economy..GDP.per.Capita.       155 non-null    float64
 6   Family                         155 non-null    float64
 7   Health..Life.Expectancy.       155 non-null    float64
 8   Freedom                        155 non-null    float64
 9   Generosity                     155 non-null    float64
 10  Trust..Government.Corruption.  155 non-null    float64
 11  Dystopia.Residual              155 non-null    f

In [7]:
exploracion_datos(df_2018)

_____________ INFORMACIÓN GENERAL DEL DATAFRAME ____________

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 156 entries, 0 to 155
Data columns (total 9 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Overall rank                  156 non-null    int64  
 1   Country or region             156 non-null    object 
 2   Score                         156 non-null    float64
 3   GDP per capita                156 non-null    float64
 4   Social support                156 non-null    float64
 5   Healthy life expectancy       156 non-null    float64
 6   Freedom to make life choices  156 non-null    float64
 7   Generosity                    156 non-null    float64
 8   Perceptions of corruption     155 non-null    float64
dtypes: float64(7), int64(1), object(1)
memory usage: 11.1+ KB
None
___________________ FORMA DEL DATAFRAME ____________________

El número de filas que tenemos es de 156.
El número de 

In [8]:
exploracion_datos(df_2019)

_____________ INFORMACIÓN GENERAL DEL DATAFRAME ____________

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 156 entries, 0 to 155
Data columns (total 9 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Overall rank                  156 non-null    int64  
 1   Country or region             156 non-null    object 
 2   Score                         156 non-null    float64
 3   GDP per capita                156 non-null    float64
 4   Social support                156 non-null    float64
 5   Healthy life expectancy       156 non-null    float64
 6   Freedom to make life choices  156 non-null    float64
 7   Generosity                    156 non-null    float64
 8   Perceptions of corruption     156 non-null    float64
dtypes: float64(7), int64(1), object(1)
memory usage: 11.1+ KB
None
___________________ FORMA DEL DATAFRAME ____________________

El número de filas que tenemos es de 156.
El número de 

In [9]:
exploracion_datos(df_2020)

_____________ INFORMACIÓN GENERAL DEL DATAFRAME ____________

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 153 entries, 0 to 152
Data columns (total 20 columns):
 #   Column                                      Non-Null Count  Dtype  
---  ------                                      --------------  -----  
 0   Country name                                153 non-null    object 
 1   Regional indicator                          153 non-null    object 
 2   Ladder score                                153 non-null    float64
 3   Standard error of ladder score              153 non-null    float64
 4   upperwhisker                                153 non-null    float64
 5   lowerwhisker                                153 non-null    float64
 6   Logged GDP per capita                       153 non-null    float64
 7   Social support                              153 non-null    float64
 8   Healthy life expectancy                     153 non-null    float64
 9   Freedom to make life choi

In [10]:
exploracion_datos(df_2021)

_____________ INFORMACIÓN GENERAL DEL DATAFRAME ____________

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 149 entries, 0 to 148
Data columns (total 20 columns):
 #   Column                                      Non-Null Count  Dtype  
---  ------                                      --------------  -----  
 0   Country name                                149 non-null    object 
 1   Regional indicator                          149 non-null    object 
 2   Ladder score                                149 non-null    float64
 3   Standard error of ladder score              149 non-null    float64
 4   upperwhisker                                149 non-null    float64
 5   lowerwhisker                                149 non-null    float64
 6   Logged GDP per capita                       149 non-null    float64
 7   Social support                              149 non-null    float64
 8   Healthy life expectancy                     149 non-null    float64
 9   Freedom to make life choi

In [11]:
exploracion_datos(df_2022)

_____________ INFORMACIÓN GENERAL DEL DATAFRAME ____________

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 146 entries, 0 to 145
Data columns (total 12 columns):
 #   Column                                      Non-Null Count  Dtype  
---  ------                                      --------------  -----  
 0   RANK                                        146 non-null    int64  
 1   Country                                     146 non-null    object 
 2   Happiness score                             146 non-null    float64
 3   Whisker-high                                146 non-null    float64
 4   Whisker-low                                 146 non-null    float64
 5   Dystopia (1.83) + residual                  146 non-null    float64
 6   Explained by: GDP per capita                146 non-null    float64
 7   Explained by: Social support                146 non-null    float64
 8   Explained by: Healthy life expectancy       146 non-null    float64
 9   Explained by: Freedom to 

In [12]:
exploracion_datos(df_2023)

_____________ INFORMACIÓN GENERAL DEL DATAFRAME ____________

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 137 entries, 0 to 136
Data columns (total 19 columns):
 #   Column                                      Non-Null Count  Dtype  
---  ------                                      --------------  -----  
 0   Country name                                137 non-null    object 
 1   Ladder score                                137 non-null    float64
 2   Standard error of ladder score              137 non-null    float64
 3   upperwhisker                                137 non-null    float64
 4   lowerwhisker                                137 non-null    float64
 5   Logged GDP per capita                       137 non-null    float64
 6   Social support                              137 non-null    float64
 7   Healthy life expectancy                     136 non-null    float64
 8   Freedom to make life choices                137 non-null    float64
 9   Generosity               

In [13]:
# Función para chequear si hay valores negativos en las columnas numéricas
def neg_values(df):
    neg_counts = {}

    for column in df.columns:
        if pd.api.types.is_numeric_dtype(df[column]):
            neg_counts[column] = (df[column] < 0).sum()

    return neg_counts

In [14]:
# Llamar a la función para contar valores negativos en datos 2015
neg_counts_2015 = neg_values(df_2015)

# Mostrar los resultados
print("Número de valores negativos por columna:")
for column, count in neg_counts_2015.items():
    print(f"Columna '{column}': {count} valores negativos")

Número de valores negativos por columna:
Columna 'Happiness Rank': 0 valores negativos
Columna 'Happiness Score': 0 valores negativos
Columna 'Standard Error': 0 valores negativos
Columna 'Economy (GDP per Capita)': 0 valores negativos
Columna 'Family': 0 valores negativos
Columna 'Health (Life Expectancy)': 0 valores negativos
Columna 'Freedom': 0 valores negativos
Columna 'Trust (Government Corruption)': 0 valores negativos
Columna 'Generosity': 0 valores negativos
Columna 'Dystopia Residual': 0 valores negativos


In [15]:
# Llamar a la función para contar valores negativos en datos 2016
neg_counts_2016 = neg_values(df_2016)

# Mostrar los resultados
print("Número de valores negativos por columna:")
for column, count in neg_counts_2016.items():
    print(f"Columna '{column}': {count} valores negativos")

Número de valores negativos por columna:
Columna 'Happiness Rank': 0 valores negativos
Columna 'Happiness Score': 0 valores negativos
Columna 'Lower Confidence Interval': 0 valores negativos
Columna 'Upper Confidence Interval': 0 valores negativos
Columna 'Economy (GDP per Capita)': 0 valores negativos
Columna 'Family': 0 valores negativos
Columna 'Health (Life Expectancy)': 0 valores negativos
Columna 'Freedom': 0 valores negativos
Columna 'Trust (Government Corruption)': 0 valores negativos
Columna 'Generosity': 0 valores negativos
Columna 'Dystopia Residual': 0 valores negativos


In [16]:
# Llamar a la función para contar valores negativos
neg_counts_2017 = neg_values(df_2017)

# Mostrar los resultados
print("Número de valores negativos por columna:")
for column, count in neg_counts_2017.items():
    print(f"Columna '{column}': {count} valores negativos")

Número de valores negativos por columna:
Columna 'Happiness.Rank': 0 valores negativos
Columna 'Happiness.Score': 0 valores negativos
Columna 'Whisker.high': 0 valores negativos
Columna 'Whisker.low': 0 valores negativos
Columna 'Economy..GDP.per.Capita.': 0 valores negativos
Columna 'Family': 0 valores negativos
Columna 'Health..Life.Expectancy.': 0 valores negativos
Columna 'Freedom': 0 valores negativos
Columna 'Generosity': 0 valores negativos
Columna 'Trust..Government.Corruption.': 0 valores negativos
Columna 'Dystopia.Residual': 0 valores negativos


In [17]:
# Llamar a la función para contar valores negativos
neg_counts_2018 = neg_values(df_2018)

# Mostrar los resultados
print("Número de valores negativos por columna:")
for column, count in neg_counts_2018.items():
    print(f"Columna '{column}': {count} valores negativos")

Número de valores negativos por columna:
Columna 'Overall rank': 0 valores negativos
Columna 'Score': 0 valores negativos
Columna 'GDP per capita': 0 valores negativos
Columna 'Social support': 0 valores negativos
Columna 'Healthy life expectancy': 0 valores negativos
Columna 'Freedom to make life choices': 0 valores negativos
Columna 'Generosity': 0 valores negativos
Columna 'Perceptions of corruption': 0 valores negativos


In [18]:
# Llamar a la función para contar valores negativos
neg_counts_2019 = neg_values(df_2019)

# Mostrar los resultados
print("Número de valores negativos por columna:")
for column, count in neg_counts_2019.items():
    print(f"Columna '{column}': {count} valores negativos")

Número de valores negativos por columna:
Columna 'Overall rank': 0 valores negativos
Columna 'Score': 0 valores negativos
Columna 'GDP per capita': 0 valores negativos
Columna 'Social support': 0 valores negativos
Columna 'Healthy life expectancy': 0 valores negativos
Columna 'Freedom to make life choices': 0 valores negativos
Columna 'Generosity': 0 valores negativos
Columna 'Perceptions of corruption': 0 valores negativos


In [19]:
# Llamar a la función para contar valores negativos
neg_counts_2020 = neg_values(df_2020)

# Mostrar los resultados
print("Número de valores negativos por columna:")
for column, count in neg_counts_2020.items():
    print(f"Columna '{column}': {count} valores negativos")

Número de valores negativos por columna:
Columna 'Ladder score': 0 valores negativos
Columna 'Standard error of ladder score': 0 valores negativos
Columna 'upperwhisker': 0 valores negativos
Columna 'lowerwhisker': 0 valores negativos
Columna 'Logged GDP per capita': 0 valores negativos
Columna 'Social support': 0 valores negativos
Columna 'Healthy life expectancy': 0 valores negativos
Columna 'Freedom to make life choices': 0 valores negativos
Columna 'Generosity': 87 valores negativos
Columna 'Perceptions of corruption': 0 valores negativos
Columna 'Ladder score in Dystopia': 0 valores negativos
Columna 'Explained by: Log GDP per capita': 0 valores negativos
Columna 'Explained by: Social support': 0 valores negativos
Columna 'Explained by: Healthy life expectancy': 0 valores negativos
Columna 'Explained by: Freedom to make life choices': 0 valores negativos
Columna 'Explained by: Generosity': 0 valores negativos
Columna 'Explained by: Perceptions of corruption': 0 valores negativos
C

In [20]:
# Llamar a la función para contar valores negativos
neg_counts_2021 = neg_values(df_2021)

# Mostrar los resultados
print("Número de valores negativos por columna:")
for column, count in neg_counts_2021.items():
    print(f"Columna '{column}': {count} valores negativos")

Número de valores negativos por columna:
Columna 'Ladder score': 0 valores negativos
Columna 'Standard error of ladder score': 0 valores negativos
Columna 'upperwhisker': 0 valores negativos
Columna 'lowerwhisker': 0 valores negativos
Columna 'Logged GDP per capita': 0 valores negativos
Columna 'Social support': 0 valores negativos
Columna 'Healthy life expectancy': 0 valores negativos
Columna 'Freedom to make life choices': 0 valores negativos
Columna 'Generosity': 86 valores negativos
Columna 'Perceptions of corruption': 0 valores negativos
Columna 'Ladder score in Dystopia': 0 valores negativos
Columna 'Explained by: Log GDP per capita': 0 valores negativos
Columna 'Explained by: Social support': 0 valores negativos
Columna 'Explained by: Healthy life expectancy': 0 valores negativos
Columna 'Explained by: Freedom to make life choices': 0 valores negativos
Columna 'Explained by: Generosity': 0 valores negativos
Columna 'Explained by: Perceptions of corruption': 0 valores negativos
C

In [21]:
# Llamar a la función para contar valores negativos
neg_counts_2022 = neg_values(df_2022)

# Mostrar los resultados
print("Número de valores negativos por columna:")
for column, count in neg_counts_2022.items():
    print(f"Columna '{column}': {count} valores negativos")

Número de valores negativos por columna:
Columna 'RANK': 0 valores negativos
Columna 'Happiness score': 0 valores negativos
Columna 'Whisker-high': 0 valores negativos
Columna 'Whisker-low': 0 valores negativos
Columna 'Dystopia (1.83) + residual': 0 valores negativos
Columna 'Explained by: GDP per capita': 0 valores negativos
Columna 'Explained by: Social support': 0 valores negativos
Columna 'Explained by: Healthy life expectancy': 0 valores negativos
Columna 'Explained by: Freedom to make life choices': 0 valores negativos
Columna 'Explained by: Generosity': 0 valores negativos
Columna 'Explained by: Perceptions of corruption': 0 valores negativos


In [22]:
# Llamar a la función para contar valores negativos
neg_counts_2023 = neg_values(df_2023)

# Mostrar los resultados
print("Número de valores negativos por columna:")
for column, count in neg_counts_2023.items():
    print(f"Columna '{column}': {count} valores negativos")

Número de valores negativos por columna:
Columna 'Ladder score': 0 valores negativos
Columna 'Standard error of ladder score': 0 valores negativos
Columna 'upperwhisker': 0 valores negativos
Columna 'lowerwhisker': 0 valores negativos
Columna 'Logged GDP per capita': 0 valores negativos
Columna 'Social support': 0 valores negativos
Columna 'Healthy life expectancy': 0 valores negativos
Columna 'Freedom to make life choices': 0 valores negativos
Columna 'Generosity': 67 valores negativos
Columna 'Perceptions of corruption': 0 valores negativos
Columna 'Ladder score in Dystopia': 0 valores negativos
Columna 'Explained by: Log GDP per capita': 0 valores negativos
Columna 'Explained by: Social support': 0 valores negativos
Columna 'Explained by: Healthy life expectancy': 0 valores negativos
Columna 'Explained by: Freedom to make life choices': 0 valores negativos
Columna 'Explained by: Generosity': 0 valores negativos
Columna 'Explained by: Perceptions of corruption': 0 valores negativos
C

In [23]:
""""# Función para estandarizar nombres de columnas
def estandarizar_columnas(df):
    columnas = {
        'Country': 'Country',
        'Country name': 'Country',
        'Country or region': 'Country',
        'Regional indicator': 'Region',
        'Region': 'Region',
        'Happiness Rank': 'Happiness Rank',
        'Overall rank': 'Happiness Rank',
        'RANK': 'Happiness Rank',
        'Happiness Score': 'Happiness Score',
        'Score': 'Happiness Score',
        'Ladder score': 'Happiness Score',
        'Standard Error': 'Standard Error',
        'Standard error of ladder score': 'Standard Error',
        'Economy (GDP per Capita)': 'Economy (GDP per Capita)',
        'Logged GDP per capita': 'Economy (GDP per Capita)',
        'GDP per capita': 'Economy (GDP per Capita)',
        'Economy..GDP.per.Capita.': 'Economy (GDP per Capita)',
        'Family': 'Family',
        'Social support': 'Family',
        'Health (Life Expectancy)': 'Health (Life Expectancy)',
        'Healthy life expectancy': 'Health (Life Expectancy)',
        'Health..Life.Expectancy.': 'Health (Life Expectancy)',
        'Freedom': 'Freedom',
        'Freedom to make life choices': 'Freedom',
        'Trust (Government Corruption)': 'Trust (Government Corruption)',
        'Perceptions of corruption': 'Trust (Government Corruption)',
        'Trust..Government.Corruption.': 'Trust (Government Corruption)',
        'Generosity': 'Generosity',
        'Dystopia Residual': 'Dystopia Residual',
        'Dystopia + residual': 'Dystopia Residual',
        'Dystopia (1.83) + residual': 'Dystopia Residual',
        'Ladder score in Dystopia': 'Dystopia Residual',
        'Lower Confidence Interval': 'Lower Confidence Interval',
        'Upper Confidence Interval': 'Upper Confidence Interval',
        'Whisker.low': 'Lower Confidence Interval',
        'lowerwhisker': 'Lower Confidence Interval',
        'Whisker.high': 'Upper Confidence Interval',
        'upperwhisker': 'Upper Confidence Interval',
        'Explained by: Log GDP per capita': 'Economy (GDP per Capita)',
        'Explained by: Social support': 'Family',
        'Explained by: Healthy life expectancy': 'Health (Life Expectancy)',
        'Explained by: Freedom to make life choices': 'Freedom',
        'Explained by: Generosity': 'Generosity',
        'Explained by: Perceptions of corruption': 'Trust (Government Corruption)',
    }
    return df.rename(columns=columnas)"""

'"# Función para estandarizar nombres de columnas\ndef estandarizar_columnas(df):\n    columnas = {\n        \'Country\': \'Country\',\n        \'Country name\': \'Country\',\n        \'Country or region\': \'Country\',\n        \'Regional indicator\': \'Region\',\n        \'Region\': \'Region\',\n        \'Happiness Rank\': \'Happiness Rank\',\n        \'Overall rank\': \'Happiness Rank\',\n        \'RANK\': \'Happiness Rank\',\n        \'Happiness Score\': \'Happiness Score\',\n        \'Score\': \'Happiness Score\',\n        \'Ladder score\': \'Happiness Score\',\n        \'Standard Error\': \'Standard Error\',\n        \'Standard error of ladder score\': \'Standard Error\',\n        \'Economy (GDP per Capita)\': \'Economy (GDP per Capita)\',\n        \'Logged GDP per capita\': \'Economy (GDP per Capita)\',\n        \'GDP per capita\': \'Economy (GDP per Capita)\',\n        \'Economy..GDP.per.Capita.\': \'Economy (GDP per Capita)\',\n        \'Family\': \'Family\',\n        \'Social

In [24]:
"""# Suponiendo que los DataFrames se llaman df_2015, df_2016, ..., df_2023
dataframes = [df_2015, df_2016, df_2017, df_2018, df_2019, df_2020, df_2021, df_2022, df_2023]

# Estandarizar columnas
dataframes = [estandarizar_columnas(df) for df in dataframes]"""

'# Suponiendo que los DataFrames se llaman df_2015, df_2016, ..., df_2023\ndataframes = [df_2015, df_2016, df_2017, df_2018, df_2019, df_2020, df_2021, df_2022, df_2023]\n\n# Estandarizar columnas\ndataframes = [estandarizar_columnas(df) for df in dataframes]'

In [7]:
def drop_col(df, lista_columnas):
  
    # Verificar si las columnas existen en el DataFrame
    columnas_a_eliminar = [col for col in lista_columnas if col in df.columns]
    
    if not columnas_a_eliminar:
        print("Ninguna de las columnas especificadas se encontró en el DataFrame.")
        return df
    
    # Eliminar las columnas
    df_sin_columnas = df.drop(columns=columnas_a_eliminar)
    return df_sin_columnas

In [12]:
# Lista de columnas a eliminar de datos 2015
drop_col_2015 = ['Dystopia Residual', 'Dystopia Residual', 'Standard Error']

# Llamando a la función
df_2015_col_drop = drop_col(df_2015, drop_col_2015)
print(df_2015_col_drop.columns)

Index(['Country', 'Region', 'Happiness Rank', 'Happiness Score',
       'Economy (GDP per Capita)', 'Family', 'Health (Life Expectancy)',
       'Freedom', 'Trust (Government Corruption)', 'Generosity'],
      dtype='object')


In [8]:
# Lista de columnas a eliminar de datos 2016
drop_col_2016 = ['Lower Confidence Interval', 'Upper Confidence Interval', 'Dystopia Residual']

# Llamando a la función
df_2016_col_drop = drop_col(df_2016, drop_col_2016)
print(df_2016_col_drop.columns)

Index(['Country', 'Region', 'Happiness Rank', 'Happiness Score',
       'Economy (GDP per Capita)', 'Family', 'Health (Life Expectancy)',
       'Freedom', 'Trust (Government Corruption)', 'Generosity'],
      dtype='object')


In [9]:
# Lista de columnas a eliminar de datos 2017
drop_col_2017 = ['Whisker.high', 'Whisker.low', 'Dystopia.Residual']

# Llamando a la función
df_2017_col_drop = drop_col(df_2017, drop_col_2017)
print(df_2017_col_drop.columns)

Index(['Country', 'Happiness.Rank', 'Happiness.Score',
       'Economy..GDP.per.Capita.', 'Family', 'Health..Life.Expectancy.',
       'Freedom', 'Generosity', 'Trust..Government.Corruption.'],
      dtype='object')


In [13]:
# Lista de columnas a eliminar de datos 2020
drop_col_2020 = ['upperwhisker', 'lowerwhisker', 'Ladder score in Dystopia', 'Dystopia + residual', 'Standard error of ladder score']

# Llamando a la función
df_2020_col_drop = drop_col(df_2020, drop_col_2020)
print(df_2020_col_drop.columns)

Index(['Country name', 'Regional indicator', 'Ladder score',
       'Logged GDP per capita', 'Social support', 'Healthy life expectancy',
       'Freedom to make life choices', 'Generosity',
       'Perceptions of corruption', 'Explained by: Log GDP per capita',
       'Explained by: Social support', 'Explained by: Healthy life expectancy',
       'Explained by: Freedom to make life choices',
       'Explained by: Generosity', 'Explained by: Perceptions of corruption'],
      dtype='object')


In [14]:
# Lista de columnas a eliminar de datos 2021
drop_col_2021 = ['upperwhisker', 'lowerwhisker', 'Ladder score in Dystopia', 'Dystopia + residual', 'Standard error of ladder score']

# Llamando a la función
df_2021_col_drop = drop_col(df_2021, drop_col_2021)
print(df_2021_col_drop.columns)

Index(['Country name', 'Regional indicator', 'Ladder score',
       'Logged GDP per capita', 'Social support', 'Healthy life expectancy',
       'Freedom to make life choices', 'Generosity',
       'Perceptions of corruption', 'Explained by: Log GDP per capita',
       'Explained by: Social support', 'Explained by: Healthy life expectancy',
       'Explained by: Freedom to make life choices',
       'Explained by: Generosity', 'Explained by: Perceptions of corruption'],
      dtype='object')


In [15]:
# Lista de columnas a eliminar de datos 2022
drop_col_2022 = ['Whisker-high', 'Whisker-low', 'Dystopia (1.83) + residual']

# Llamando a la función
df_2022_col_drop = drop_col(df_2022, drop_col_2022)
print(df_2022_col_drop.columns)

Index(['RANK', 'Country', 'Happiness score', 'Explained by: GDP per capita',
       'Explained by: Social support', 'Explained by: Healthy life expectancy',
       'Explained by: Freedom to make life choices',
       'Explained by: Generosity', 'Explained by: Perceptions of corruption'],
      dtype='object')


In [16]:
# Lista de columnas a eliminar de datos 2023
drop_col_2023 = ['upperwhisker', 'lowerwhisker', 'Dystopia + residual', 'Ladder score in Dystopia', 'Standard error of ladder score']

# Llamando a la función
df_2023_col_drop = drop_col(df_2023, drop_col_2023)
print(df_2023_col_drop.columns)

Index(['Country name', 'Ladder score', 'Logged GDP per capita',
       'Social support', 'Healthy life expectancy',
       'Freedom to make life choices', 'Generosity',
       'Perceptions of corruption', 'Explained by: Log GDP per capita',
       'Explained by: Social support', 'Explained by: Healthy life expectancy',
       'Explained by: Freedom to make life choices',
       'Explained by: Generosity', 'Explained by: Perceptions of corruption'],
      dtype='object')


In [17]:
# Renombrar las columnas para cada DataFrame
df_2015_col_drop = df_2015_col_drop.rename(columns={
    'Economy (GDP per Capita)': 'GDP per capita',
    'Family': 'Social support',
    'Health (Life Expectancy)': 'Healthy life expectancy',
    'Freedom': 'Freedom to make life choices',
    'Trust (Government Corruption)': 'Perceptions of corruption'})

In [27]:
 # Guardar el DataFrame limpio como un archivo CSV
df_2015_col_drop.to_csv("happy_2015.csv", index=False)

In [18]:
# Renombrar las columnas para cada DataFrame
df_2016_col_drop = df_2016_col_drop.rename(columns={
    'Economy (GDP per Capita)': 'GDP per capita',
    'Family': 'Social support',
    'Health (Life Expectancy)': 'Healthy life expectancy',
    'Freedom': 'Freedom to make life choices',
    'Trust (Government Corruption)': 'Perceptions of corruption'})

In [28]:
 # Guardar el DataFrame limpio como un archivo CSV
df_2016_col_drop.to_csv("happy_2016.csv", index=False)

In [19]:
# Renombrar las columnas para cada DataFrame
df_2017_col_drop = df_2017_col_drop.rename(columns={
    'Happiness.Rank': 'Happiness Rank',
    'Happiness.Score': 'Happiness Score',
    'Economy..GDP.per.Capita.': 'GDP per capita',
    'Family': 'Social support',
    'Health..Life.Expectancy.': 'Healthy life expectancy',
    'Freedom': 'Freedom to make life choices',
    'Trust..Government.Corruption.': 'Perceptions of corruption'})

In [29]:
 # Guardar el DataFrame limpio como un archivo CSV
df_2017_col_drop.to_csv("happy_2017.csv", index=False)

In [20]:
# Renombrar las columnas para cada DataFrame
df_2018 = df_2018.rename(columns={
    'Overall rank': 'Happiness Rank',
    'Score': 'Happiness Score',
    })

In [30]:
 # Guardar el DataFrame limpio como un archivo CSV
df_2018.to_csv("happy_2018.csv", index=False)

In [21]:
# Renombrar las columnas para cada DataFrame
df_2019 = df_2019.rename(columns={
    'Overall rank': 'Happiness Rank',
    'Score': 'Happiness Score',
    })

In [31]:
 # Guardar el DataFrame limpio como un archivo CSV
df_2019.to_csv("happy_2019.csv", index=False)

In [22]:
# Renombrar las columnas para cada DataFrame
df_2020_col_drop = df_2020_col_drop.rename(columns={
    'Country name': 'Country',
    'Regional indicator': 'Region',
    'Ladder score': 'Happiness Score',
    'Logged GDP per capita': 'GDP per capita'})

In [32]:
 # Guardar el DataFrame limpio como un archivo CSV
df_2020_col_drop.to_csv("happy_2020.csv", index=False)

In [23]:
# Renombrar las columnas para cada DataFrame
df_2021_col_drop = df_2021_col_drop.rename(columns={
    'Country name': 'Country',
    'Regional indicator': 'Region',
    'Ladder score': 'Happiness Score',
    'Logged GDP per capita': 'GDP per capita'})

In [33]:
 # Guardar el DataFrame limpio como un archivo CSV
df_2021_col_drop.to_csv("happy_2021.csv", index=False)

In [24]:
# Renombrar las columnas para cada DataFrame
df_2022_col_drop = df_2022_col_drop.rename(columns={
    'RANK': 'Happiness Rank'})

In [34]:
 # Guardar el DataFrame limpio como un archivo CSV
df_2022_col_drop.to_csv("happy_2022.csv", index=False)

In [25]:
# Renombrar las columnas para cada DataFrame
df_2023_col_drop = df_2023_col_drop.rename(columns={
    'Country name': 'Country',
    'Ladder score': 'Happiness Score',
    'Logged GDP per capita': 'GDP per capita'})

In [35]:
 # Guardar el DataFrame limpio como un archivo CSV
df_2023_col_drop.to_csv("happy_2023.csv", index=False)

In [42]:
"""# Combinar los DataFrames
df_combined = pd.concat(dataframes, ignore_index=True)

# Guardar el DataFrame combinado
df_combined.to_csv('happiness_combined.csv', index=False)

df_combined.head()"""

"# Combinar los DataFrames\ndf_combined = pd.concat(dataframes, ignore_index=True)\n\n# Guardar el DataFrame combinado\ndf_combined.to_csv('happiness_combined.csv', index=False)\n\ndf_combined.head()"

In [53]:
df = pd.read_csv("DF_LIMPIOS/happy_2015.csv")
df.sample(10)

Unnamed: 0,Country,Region,Happiness Rank,Happiness Score,GDP per capita,Social support,Healthy life expectancy,Freedom to make life choices,Perceptions of corruption,Generosity
113,Ghana,Sub-Saharan Africa,114,4.633,0.54558,0.67954,0.40132,0.42342,0.04355,0.23087
151,Burkina Faso,Sub-Saharan Africa,152,3.587,0.25812,0.85188,0.27125,0.39493,0.12832,0.21747
104,Honduras,Latin America and Caribbean,105,4.788,0.59532,0.95348,0.6951,0.40148,0.06825,0.23027
131,Sri Lanka,Southern Asia,132,4.271,0.83524,1.01905,0.70806,0.53726,0.09179,0.40828
116,India,Southern Asia,117,4.565,0.64499,0.38174,0.51529,0.39786,0.08492,0.26475
64,Jamaica,Latin America and Caribbean,65,5.709,0.81038,1.15102,0.68741,0.50442,0.02299,0.2123
87,Portugal,Western Europe,88,5.102,1.15991,1.13935,0.87519,0.51469,0.01078,0.13719
14,United States,North America,15,7.119,1.39451,1.24711,0.86179,0.54604,0.1589,0.40105
9,Australia,Australia and New Zealand,10,7.284,1.33358,1.30923,0.93156,0.65124,0.35637,0.43562
13,Mexico,Latin America and Caribbean,14,7.187,1.02054,0.91451,0.81444,0.48181,0.21312,0.14074
