## Introducción
Este Jupyter Notebook 01_combinate_data procesa y combina los conjuntos de datos del Informe Mundial de Felicidad de 2015 a 2019 para crear un conjunto unificado que permita su posterior análisis. Los conjuntos de datos contienen puntuaciones de felicidad y métricas relacionadas (p. ej., PIB per cápita, apoyo social, esperanza de vida) para varios países. El flujo de trabajo incluye la carga de datos, la estandarización de los nombres de las columnas, la fusión de los conjuntos de datos, la gestión de valores faltantes y el almacenamiento de los datos combinados como un archivo CSV. Este conjunto de datos consolidado permite el análisis longitudinal de las tendencias globales de felicidad durante el período de cinco años.

Esta sección importa las bibliotecas de Python necesarias para la manipulación de datos, operaciones numéricas y visualización:

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

Cargando datos de felicidad
Esta sección carga los conjuntos de datos del Informe Mundial de Felicidad de 2015 a 2019 desde archivos CSV en DataFrames de Pandas independientes ( df1 a df5 ). Cada archivo contiene métricas de felicidad de varios países.

In [5]:
# Carga los archivos CSV
df1 = pd.read_csv('C:/Users/Acer/OneDrive/Escritorio/Workshops y Proyectos/workshop3/datos/2015.csv')
df2 = pd.read_csv('C:/Users/Acer/OneDrive/Escritorio/Workshops y Proyectos/workshop3/datos/2016.csv')
df3 = pd.read_csv('C:/Users/Acer/OneDrive/Escritorio/Workshops y Proyectos/workshop3/datos/2017.csv')
df4 = pd.read_csv('C:/Users/Acer/OneDrive/Escritorio/Workshops y Proyectos/workshop3/datos/2018.csv')
df5 = pd.read_csv('C:/Users/Acer/OneDrive/Escritorio/Workshops y Proyectos/workshop3/datos/2019.csv')


Vista previa de los datos
Esta sección muestra las primeras cinco filas de cada DataFrame ( df1 a df5 ) para inspeccionar la estructura y el contenido de los conjuntos de datos de felicidad de cada año.

In [6]:
print("Archivo 1:", df1.head())
print("Archivo 2:", df2.head())
print("Archivo 3:", df3.head())
print("Archivo 4:", df4.head())
print("Archivo 5:", df5.head())

Archivo 1:        Country          Region  Happiness Rank  Happiness Score  \
0  Switzerland  Western Europe               1            7.587   
1      Iceland  Western Europe               2            7.561   
2      Denmark  Western Europe               3            7.527   
3       Norway  Western Europe               4            7.522   
4       Canada   North America               5            7.427   

   Standard Error  Economy (GDP per Capita)   Family  \
0         0.03411                   1.39651  1.34951   
1         0.04884                   1.30232  1.40223   
2         0.03328                   1.32548  1.36058   
3         0.03880                   1.45900  1.33095   
4         0.03553                   1.32629  1.32261   

   Health (Life Expectancy)  Freedom  Trust (Government Corruption)  \
0                   0.94143  0.66557                        0.41978   
1                   0.94784  0.62877                        0.14145   
2                   0.87464  0.64938

Inspección de la estructura del DataFrame
Esta sección imprime los nombres de las columnas y las formas (número de filas y columnas) de cada DataFrame para comprender su estructura y garantizar la coherencia entre los conjuntos de datos.

In [7]:
print("Columnas df1:", df1.columns)
print("Forma df1:", df1.shape)

print("Columnas df2:", df2.columns)
print("Forma df2:", df2.shape)

print("Columnas df3:", df3.columns)
print("Forma df3:", df3.shape)

print("Columnas df4:", df4.columns)
print("Forma df4:", df4.shape)

print("Columnas df5:", df5.columns)
print("Forma df5:", df5.shape)



Columnas df1: Index(['Country', 'Region', 'Happiness Rank', 'Happiness Score',
       'Standard Error', 'Economy (GDP per Capita)', 'Family',
       'Health (Life Expectancy)', 'Freedom', 'Trust (Government Corruption)',
       'Generosity', 'Dystopia Residual'],
      dtype='object')
Forma df1: (158, 12)
Columnas df2: Index(['Country', 'Region', 'Happiness Rank', 'Happiness Score',
       'Lower Confidence Interval', 'Upper Confidence Interval',
       'Economy (GDP per Capita)', 'Family', 'Health (Life Expectancy)',
       'Freedom', 'Trust (Government Corruption)', 'Generosity',
       'Dystopia Residual'],
      dtype='object')
Forma df2: (157, 13)
Columnas df3: Index(['Country', 'Happiness.Rank', 'Happiness.Score', 'Whisker.high',
       'Whisker.low', 'Economy..GDP.per.Capita.', 'Family',
       'Health..Life.Expectancy.', 'Freedom', 'Generosity',
       'Trust..Government.Corruption.', 'Dystopia.Residual'],
      dtype='object')
Forma df3: (155, 12)
Columnas df4: Index(['Overall

Estandarización y combinación de marcos de datos
Esta sección estandariza los nombres de las columnas en todos los DataFrames ( df1 a df5 ) para garantizar la coherencia, añade una columna " Año" a cada DataFrame y los concatena en un único DataFrame ( df_combined ). También completa los valores faltantes de Región mediante una asignación del conjunto de datos de 2015 e imputa los valores faltantes de Corruption_Perception con la mediana de cada año.

In [26]:

# Diccionarios para renombrar columnas
rename_df1 = {
    'Country': 'Country',
    'Region': 'Region',
    'Happiness Rank': 'Happiness_Rank',
    'Happiness Score': 'Happiness_Score',
    'Economy (GDP per Capita)': 'GDP_per_Capita',
    'Family': 'Social_Support',
    'Health (Life Expectancy)': 'Life_Expectancy',
    'Freedom': 'Freedom',
    'Generosity': 'Generosity',
    'Trust (Government Corruption)': 'Corruption_Perception',
    'Dystopia Residual': 'Dystopia_Residual',
    'Standard Error': 'Standard_Error'
}

rename_df2 = {
    'Country': 'Country',
    'Region': 'Region',
    'Happiness Rank': 'Happiness_Rank',
    'Happiness Score': 'Happiness_Score',
    'Economy (GDP per Capita)': 'GDP_per_Capita',
    'Family': 'Social_Support',
    'Health (Life Expectancy)': 'Life_Expectancy',
    'Freedom': 'Freedom',
    'Generosity': 'Generosity',
    'Trust (Government Corruption)': 'Corruption_Perception',
    'Dystopia Residual': 'Dystopia_Residual',
    'Lower Confidence Interval': 'Lower_Confidence_Interval',
    'Upper Confidence Interval': 'Upper_Confidence_Interval'
}

rename_df3 = {
    'Country': 'Country',
    'Happiness.Rank': 'Happiness_Rank',
    'Happiness.Score': 'Happiness_Score',
    'Economy..GDP.per.Capita.': 'GDP_per_Capita',
    'Family': 'Social_Support',
    'Health..Life.Expectancy.': 'Life_Expectancy',
    'Freedom': 'Freedom',
    'Generosity': 'Generosity',
    'Trust..Government.Corruption.': 'Corruption_Perception',
    'Dystopia.Residual': 'Dystopia_Residual',
    'Whisker.high': 'Whisker_High',
    'Whisker.low': 'Whisker_Low'
}

rename_df4_df5 = {
    'Country or region': 'Country',
    'Overall rank': 'Happiness_Rank',
    'Score': 'Happiness_Score',
    'GDP per capita': 'GDP_per_Capita',
    'Social support': 'Social_Support',
    'Healthy life expectancy': 'Life_Expectancy',
    'Freedom to make life choices': 'Freedom',
    'Generosity': 'Generosity',
    'Perceptions of corruption': 'Corruption_Perception'
}

# Renombrar columnas
df1 = df1.rename(columns=rename_df1)
df2 = df2.rename(columns=rename_df2)
df3 = df3.rename(columns=rename_df3)
df4 = df4.rename(columns=rename_df4_df5)
df5 = df5.rename(columns=rename_df4_df5)

# Agregar columna 'Year'
df1['Year'] = 2015
df2['Year'] = 2016
df3['Year'] = 2017
df4['Year'] = 2018
df5['Year'] = 2019

# Concatenar todos los DataFrames
df_combined = pd.concat([df1, df2, df3, df4, df5], ignore_index=True)

# Llenar 'Region' usando un mapeo desde 2015
region_map = df1[['Country', 'Region']].set_index('Country')['Region'].to_dict()
df_combined['Region'] = df_combined['Region'].fillna(df_combined['Country'].map(region_map))

# Llenar el nulo en 'Corruption_Perception' con la mediana del año correspondiente
df_combined['Corruption_Perception'] = df_combined.groupby('Year')['Corruption_Perception'].transform(lambda x: x.fillna(x.median()))



Comprobación de la forma del marco de datos combinado
Esta sección muestra la forma del DataFrame combinado ( df_combined ) para verificar el número total de filas y columnas después de la concatenación.

In [27]:

df_combined.shape


(782, 17)

Inspección de columnas de DataFrame combinadas
En esta sección se enumeran los nombres de las columnas del DataFrame combinado para confirmar que se incluyan y estandaricen todas las columnas relevantes.

In [28]:
df_combined.columns


Index(['Country', 'Region', 'Happiness_Rank', 'Happiness_Score',
       'Standard_Error', 'GDP_per_Capita', 'Social_Support', 'Life_Expectancy',
       'Freedom', 'Corruption_Perception', 'Generosity', 'Dystopia_Residual',
       'Year', 'Lower_Confidence_Interval', 'Upper_Confidence_Interval',
       'Whisker_High', 'Whisker_Low'],
      dtype='object')

Vista previa del marco de datos combinado
Esta sección muestra las primeras cinco filas del DataFrame combinado para inspeccionar los datos estandarizados y garantizar que la columna Año y los valores completados se apliquen correctamente.

In [29]:
print("Primeras filas del DataFrame combinado:")
df_combined.head()


Primeras filas del DataFrame combinado:


Unnamed: 0,Country,Region,Happiness_Rank,Happiness_Score,Standard_Error,GDP_per_Capita,Social_Support,Life_Expectancy,Freedom,Corruption_Perception,Generosity,Dystopia_Residual,Year,Lower_Confidence_Interval,Upper_Confidence_Interval,Whisker_High,Whisker_Low
0,Switzerland,Western Europe,1,7.587,0.03411,1.39651,1.34951,0.94143,0.66557,0.41978,0.29678,2.51738,2015,,,,
1,Iceland,Western Europe,2,7.561,0.04884,1.30232,1.40223,0.94784,0.62877,0.14145,0.4363,2.70201,2015,,,,
2,Denmark,Western Europe,3,7.527,0.03328,1.32548,1.36058,0.87464,0.64938,0.48357,0.34139,2.49204,2015,,,,
3,Norway,Western Europe,4,7.522,0.0388,1.459,1.33095,0.88521,0.66973,0.36503,0.34699,2.46531,2015,,,,
4,Canada,North America,5,7.427,0.03553,1.32629,1.32261,0.90563,0.63297,0.32957,0.45811,2.45176,2015,,,,


Guardar el marco de datos combinado
Esta sección guarda el DataFrame combinado ( df_combined ) en un archivo CSV llamado combined_happiness_data.csv en el directorio especificado para su posterior análisis.

In [30]:
# Guardar el DataFrame combinado en la ruta especificada
df_combined.to_csv('C:/Users/Acer/OneDrive/Escritorio/workshop3/datos/combined_happiness_data.csv', index=False)